(整理予定)言語処理道一合目

対話システム・言語処理についてぼちぼち頑張るブログ

はじめてのろんぶんし

「はじめてのおつかい」風にタイトルを書きたかったのだが、ただただ幼稚な感じになってしまった。

 

この前、初めて論文誌に投稿したので、その反省と備忘録を記す。

〇全体としての反省〇

まず、全体としての大きな反省は、諸々やる手順を間違って時間を無駄にした点である。

反省をまとめると、全体構成の詰めを指導教員とは始める前に自分なりに推敲してしまい、そのあと大幅な構成変更が入ったので、推敲時間が無駄になってた。

また、初めての論文誌だったので推敲の感覚(?)が身についておらず、推敲も正しくできていなかった。読みやすくかたよらないうよに,全体やパラグラフや段落を構成する感覚というか.

 

今回は以下の本の第4ステージを参考に執筆を初めた。

卒論・修論研究の攻略本:有意義な研究室生活を送るための実践ガイド | 石原 尚 |本 | 通販 | Amazon

 

しかし、本に書かれていることは、文章化されている時点で一般化されているし、文章から想起した自分のイメージが、その筆者のイメージと同じとは限らない。

やっぱり、その道の達人からのフィードバックに勝るものはない。と痛感した。

 

以降に今回の一番の学びである,正しい論文誌推敲の進め方や各所のポイントを列挙した.

 

〇正しい論文誌推敲の進め方・各所のポイント〇

大体全体で8週間.先生とのやりとりの時間を考慮して4ヶ月ぐらい前から書き始めるのがベスト.2ヶ月前きると危険.

 

①大枠の構成チェック(2-3日)

 ・まず,箇条書きで書いてみる

②ざっくり書いてみる(1週間)

 ・1-2日ぐらいの勢いで,文章表現とか適当でいいので書いてみる

  ・多分,ここできちんとした表現で書くよりも,幼稚でもいいからわかりやすい表現にするのが良いと思う

  ・パラグフはこの時点でなんとなくでいいので,ここで意識した方がよい

③構成(のみ)チェックにあげられる状態にする(1週間)
 ・構成をざっくり(厳密にはしない)整える,入れ替える

   ・段落のタイトル→各章の見出し→各パラグラフの先頭文と飛ばし読みできる程度構成をチェックする

   ・目安は,自分が速読するときに,読みやすいか.パッと読んで3-4分でポイントを把握できるか(できるだけ他人が読む気持ちで).詳しく読みたい箇所をパッと探せるようになっているか.

 ・人様に見せられないような表現,誤字脱字をチェックする

 ・これから,推敲でチェックするポイントをリストアップする

④指導教員に,まず構成だけみて頂く(1~2週間)

 ・構成だけ(そしてざっくり)ご指導頂きたい旨お願い

  ・この時,後で校正する箇所を明治する,指導教員がチェックしなくてよいポイントがわかりスムーズになるようにする
 ⇅

 ・構成がしっかり納得できるまで応酬する.

⑤文書・図の洗練化を行う (1週間)

 ・よりわかりやすい表現や,言い回しなど文書を洗練化させる

 ・同じく図も洗練化させる

   ・詳しくは 後述  〇細かい注意する点諸々リスト〇を参考に

⑥先生に本格的な校正をお願いする(1~2週間)

 ⇅

 ・納得いくまで応酬

⑦完成!

 

〇細かい注意する点諸々リスト〇

  • 構成・書き方
    • パラグラフライティングしよう
    • パラグラフ先頭にインパクトのある文書をもってこよう
      • その図が説明したいことは1つになるべく絞ろう
      • 図は無駄にカラーにしない.基本モノクロ.柄でわかりやすくしたり,ポイントだけ赤くなど(特に論文誌は)
      • 飛ばし読みしやすいように文章を構成しよう
        • ・段落のタイトル→各章の見出し→各パラグラフの先頭文と飛ばし読みできる程度構成をチェックする

           

          • 例えば各章の見出しでのポイントの表現と,本文パラグラフ先頭のポイントの表現を全く同じにし,繋がりをみせやすくする.またポイントが何かをわかりやすくする
        • 目安は,自分が速読するときに,読みやすいか.パッと読んで3-4分でポイントを把握できるか(できるだけ他人が読む気持ちで).詳しく読みたい箇所をパッと探せるようになっているか.

      • キャプションは主張したいことではなく、図が何を表しているか見たままを書くようにしよう(図4は「自己注意によるユーザポートレート作成方法(従来手法)」、図5は「自己注意に知識の階層関係を加えたユーザポートレート作成方法(提案手法)」とか)
    • 実験設定に入る前に実験の目的を書くのを忘れなうようにしよう
    •  
  • 校正
    • 声にだして読んでみよう
    • 1-2日寝かしてよんでみよう
    • 「~としては」「~に関しては」「~については」という表現を使いがちなので、できる限り無くすようにしよう
      • もっと簡潔にできるはず
    • パラグラフがいい感じのひとかたまりにならない時は,そもそもその段落全体の校正がおかしい
    • カタカナ語をつかわないようにしよう
    • また,は並列の時だけにしよう
    • しかし,を並列っぽい意味あいで使わないようにしよう
    • ✖️人的評価 ◎主観評価
    • ✖️本研究 ◎提案手法
    • ✖️公開済みデータセット ◎公開データセット
    • ✖️推測 ◎予測,推論
    • ✖︎重要である ◎利点である
      • 根拠を示せば「重要である」つかってもよいが,主観的な表現に使う表現は避けるのがベター
    • コンマやピリオド,半角全角混ぜるな危険
    • 文の主語を忘れないように
    • ✖︎幾つか ◎いくつか
    • ✖︎エンコード ◎特徴抽出 特徴量抽出
    • ✖︎この時 ◎このとき
    • ✖︎以降のように ◎以下の手順で
    • ✖︎一致 ◎合致
    • ✖︎にて ◎を用いて
    • ✖︎越して ◎上回って
    • ✖︎際 ◎場合
    • 日本語本文の中身が英語の()は英語の論文にのっとって半角()にスペース
    • ✖︎計測した ◎求めた
    • 図に対するvspace などの書き方.次書く時は先生が修正してくれたところを参考にする
    • ✖︎can’ t  ◎can not
    • 内容のダブりを少なくする
    • イントロに明らかになったは使わない
      • イントロではこれから明らかにする手続きを宣言する場所なのにいきなり「明らかになった」で自己完結終了してるみたいに見えて具合が悪い印象
      • 「明らかにする」はイントロでよく使うが、「明らかになった」かを判断するのは著者だけでなくそれを読む読者もだと思うので、抵抗がある
      • ✖︎明らかになった(イントロ) ◎示す

 

毎週日曜のGNN🍵:つぶやき 属性とラベルについてをイジイジしてます.

属性とラベルについてイジイジしていましたが,ラベルの方はシンプルにノード分類タスクにおける正解ラベルのことを差し,

属性については,そのノードの属性で本当にそのデータセットごとに様々に定義されるので,データセットの説明を見るのが一番よいのかしら,ということに落ち着いた.

 

小話:GNNの種類について

先週は理論をちまちまとやっており、エンベディングの手法をさっと見直したので、投稿します。

 

  • グラフのエンベディング
    • DeepWalk
    • LINE
    • node2vec
    • GraRep

情報量がまるでない、、、

もう少し詳しく、論文とか読みたいところ。

各エンベディング手法に強みがあるみたいなので、比較論文やコードで実際に動かして比較してみたい。

先週やりたいといっていた、ラベル・属性云々もできてないのでやりたい。

毎週日曜のGNN🍵:つぶやき 属性とラベルについてをイジイジしてます.

文献のデータセットであるCoreデータセットをいじってみてますが,よくわかってません.

属性とラベルがどのようになっているのかを理解すべくいじいじしています.

 

有用な記事ではないですが,とにかく毎週日曜日はつぶやきでいいから続ける!という方針で続ける(日曜日から遅刻してますが)

 

有用性より,続ける重視でやってきます.

 

 
from torch_geometric.datasets import Planetoid
dataset = Planetoid(root='/tmp/Cora', name='Cora')
#>>> Cora()
print(len(dataset))
#>>> 1
print(dataset.num_classes)
#>>> 7
print(dataset.num_node_features)
#>>> 1433

for i in range(len(dataset)):
    x = dataset[i].x  # ノードの属性
    y = dataset[i].y  # ラベル
    print(f'Node {i}: Features={x}, Label={y}')