(整理予定)言語処理道一合目

対話システム・言語処理についてぼちぼち頑張るブログ

NLP2019まとめ(誤字チェックまだ)~NLP2019から学んだわかる研究初心者が気をつける点~

NLP2019まとめ

 

幸い有給を頂きまして、自然言語処理学会2019(NLP2019)に行ってきました。

刺激的でめちゃくちゃ楽しかった! 

目的

今回の学会での目的は以下でした。

①自分の研究のポジションを知る。

②NN(ニューラルネット)対話の研究の基礎的情報を仕入れる

 

周りにNN対話の研究をしていらっしゃる方がいないため、

この年に1回の祭典(?)で「NN対話研究者からの情報を得なければ来年の研究生活はしまいだ!」と挑むこころづもりで行ってきました。

 

目的に対しての得られたことは以下です。

①自分の研究のポジションを知る。

→タスクとしては割とホットみたいである。この波に乗りたい!(同じタスクに挑んだ研究が2件(以下参照)あった。またそれに対する周囲の食いつきがよかった)。

そしてかなりseq2seqのモデルの本質的なところの研究みたいである。実装スキルと、マシンパワーと数学の力必要。絶望。でも、やりたい。

ただ、自分の考えているモデルはベースラインからの変更ポイントがかなり多く、無謀そうだということがわかった。理想を掲げ、部分部分で研究していくか(しかし、部分でやると評価がむずかしそうだな。そして面白くない。)、モデルをシンプルにするか、今の研究の文脈に一部を沿わせるかしないといけなさそう。

そもそも、今考えている主張だと、「対話seq2seqのタスクじゃなく、単純に対話テキストジェネレーションよね?」ってなりそう。

(同タスクの研究さま)

・自己相互情報量を用いた特徴語彙予測に基づく雑談応答生成(○高山隼矢, 荒瀬由紀 (阪大))

・因果関係を用いた雑談対話応答におけるリランキングの評価(○田中翔平, 吉野幸一郎, 須藤克仁, 中村哲 (NAIST)さん)

 

②NN(ニューラルネット)対話の研究の基礎的情報を仕入れる

→ポスターで、人がちょうど掃けてきたタイミングを狙って

「周りでNN対話研究やっている人いないんです!!どうか、基礎的な質問させてください!!」となんだこいつ感丸だしで特攻したところ、邪険な顔もせず教えてくださいました。Wさんありがとうございます。なんだこいつでしたよね、、、。

1、使っているツール

→openNMT。(私はtensorflowとchainerしか使ったことなかったけど、これ、楽らしい)

2、マシンパワー

GPU、100万文、エポック9、で6時間。すごいな。私去年20万文とかで1ヶ月ぐらいかかったぞ、、、。エポックすごい回してはいたけど。

(3、トピック表現)

なんで、みんなLDAとか使わんで、分散表現の平均をトピックとして使ってるんだ。理由はあるのか。と疑問の思っていたけど、単純にそれがメジャーな手法だから、それにしたみたいだ。

(4、en-decのどこに外部情報入れるの問題)

先頭に情報を入れるのか、隠れ層に入れるのか、アテンションでいれるのか。

自分でも試してみたいが、隠れ層にトピック情報入れるのあんまり結果芳しくないらしい。

 

 

 ●Todoと達成度●

予定していたTodoとそれに対する達成度は以下です。 

Todoリスト-----------------------------------------------------------------------------------------------------------------

◻︎他の方の発表にされた質問とその答えを全てノートテイキング

→6割達成(もっと誰が質問したかとかメモればよかった。指摘の分野のリストざっくり下にまとめた)

◻︎論文をまとめる(落合ポイント方式)

→1割達成。話聞きながらこれするのむずかしかった。

◻︎一言でいいから発する

→10割達成。ポスターめちゃめちゃお話できた。ためになった。楽しかった。しかし相手の方から見るとどうだっただろうか。

◻︎あわよくば仲間を見つける

→1割達成。連絡先、とかまでは行かず。今度名刺交換とかしてみたいな。早くもの作って、それをネタにちょこちょこいろんなとこに顔出したい。

とにかくものを作らな、話ならん。

 

●研究でされやすい指摘まとめ●

・【もっとシンプルに】本当にその手法を用いる必要がある?他にもっと適した手法あるんじゃない?最新だから、とかじゃダメでしょ。どうしてその手法にしたのか論理的に説明できるように。

・上と同様、なんでこの計算式にしたのか。を説明できるように。

・できるだけ結果に影響している変数は1つにし、どう影響しているか調べなさい。(何がどう影響しているかわからないから)

・筋道を立てて仮説を立てて実験しなさい。動機、立てた仮説、手法、矛盾がないように。

・うまくいった例と、うまくいかなかった例は載せなさい。

・詳細を質問されて答えられるように、補足資料は入念に用意しなさい。

・評価の数値は有意差の検定をしなさい。

・考察が甘い。なんで良くなったのか、なんで悪くなったのかを考えなさい。パイロット実験の段階でも、「どうしてこの結果になるのだろう」を常に大事に。

・知りたい結果に対して、その評価指標は正しいのか。その評価指標で既存手法と提案手法で「こういったことの差が知りたかった」を知れるのか。

 

・総括。結果や成果を求めるためについ、本質を見失いがち。本質に集中。なるべく「成果出したい」とか自分に意識を向けるよりも(モチベでは大事だけど)、研究中は「対象の集中」。純粋に研究を面白がれ。 辛くなったら負けだ。(これは個人の見解)

 

プログラムごとのまとめ

(後日UPしたい) 

 

 

今後の課題

・英語(髪乾かしシャドウイング。通勤リスニングは最低限毎日やろう。)

人間力

・NNについてもっと使いこなしたい。理解深めたい。

・transformer,BART,複合,理論の自然言語処理への応用(言語・脳科学)、実践への応用への真剣さ

 

圧倒的感謝

・M先輩

M先輩の言葉が、研究と仕事を両輪でうまく回せない歯がゆさ、周りと比べて折れそうなときに支えてくれる。職場でこんな人に会えるなんてなんて私はついてるんだろう。感謝しかない。ヨーロッパいってしまわれる前に、もっと学びたい!以下いただいた言葉集

「かつて、(アインシュタインは)生活の糧をそれに頼らなければ、科学とはすばらしいものだ、

と言い残しています。」

「学位をとるというのは、コップを作ることだと思います。

筋道立ててきちんと考えられるのであれば、そのコップは大丈夫です。

いかなる内容(専門分野)を中に入れても壊れることはないでしょう。」

「好きなことを好きなように、人生を楽しんでくださいね。そういう人がきっと輝いているんだと思います」

「小手先のテクニックはおもしろいものですが、それに魅惑されると人は本質を見

失ってしまいます。対して、筋道立てて考える訓練を続けると、きっと今まで以

上にいろいろなことが見えるようになると思います。」

・先生

先生がいなかったら、絶対研究できなかった。

こんな仕事と研究とかいう変な私にも、しっかり指導してくる人間がいる。それってとっても恵まれている。

・親

・友

・職場の方

 

人間力

 いい研究には、人間力が必要だと漠然と思った。人間性磨きたい。

発表のスキルに関して言えば、漠然と以下が大事かと

・余裕で穏やかな笑顔はエチケット。(仕事もおんなじね!)

・その場を楽しむ

・おどおどしない

・メタ意識(自分の行動を俯瞰して捉える)

・プロ意識(プライベートでもないのに、甘ったれない。)

・1枚隔てる(相手との間にワンクッションおく)

 

 

 

その他雑感

純粋に研究的自分のポジションも そうだけど、自分の進みたい方向も大体見えてきた。

 

 

①生物を模したプログラミング

流行っているから!じゃなくて、おそらく私は純粋にNNが好き。

なのは、生物いじっていた時(分子生物学)に

「生物ってなんてシステマテック!!!美しい!!」

って感動した経験があるからなのだろう。脳の仕組みのエッセンスを利用した、NNは美しい。

生物を模したプログラム(多分昔流行ったところなんだろな)好きって、今後、もしかしたら強みかも。

 

①思いっきり好奇心のままにリスクの高いとこに好きなように研究できる強み。

 私はとりあえず今の状況下では、研究に自分の生活がかかっているわけではない。

だからこそ、思いっきり、リスクの高いところにも好奇心の赴くままに純粋に研究できるのは強みかもしれない。

 

①仕事は、研究者と現場のハブに。 

 仕事の目標は「文献情報を、より早く、より便利に提供する」だったけれども、多分私自身がそれについて研究するというよりは、研究と実現場のハブ的存在に自分がなることができたならな、と思う。

 

①ものをはよ出せ!!ものを!!!

→うだうだ考えているだけじゃ始まらない。筋道を立てるのは大事だけど。

アウトプットしないと次に進めん。落合陽一さんの鬼サーベイ授業のスピード感。

来週中にはモデル固めて、4月に実装したい。

*スピード感*

3週間でサーベイ!100本!

2週間でモデル!

1ヶ月で実装!

相談

また2週間で実装。