(整理予定)言語処理道一合目

対話システム・言語処理についてぼちぼち頑張るブログ

頭の中の考えを言葉や図にするのは難しい。モチベーションと集中を維持するのは難しい。

今日の更新は日記です。

・頭の中の考えを、紙に起こすのは難しい

人様に、自分の作りたいシステムについて意見や議論をしてもらうために、資料を作っているんですが、これがなかなか難しいです。

【議論してもらうために】

というからには、①相手の方にスッとわかりやすく入るように説明し、かつ、②どこを自分が論点にしてほしいのか提示しなくちゃいけません。
③あと、詳細を質問されても答えられるようにサブ資料の控えも。

頭じゃわかっちゃいるけれど、実際にそれらを満たす資料を作るのはむずかしい~~~!
研究の本質部分ではないので、ここにあまり時間はかけたくないんですが、せっかく聞いてもらう方の貴重なお時間を無駄にしちゃならないので、手は抜きたくない、、というジレンマ。

とにかく、初っぱなからスライドで作るとえらい時間がかかるので、ノートにラフを何回か書き中。

他の方の論文や、youtubeで学会発表をみながら頑張りたいです。

あ、そういえば、これってお仕事にも必要なスキルですよね。

ああ~~どうやったら、早く説明資料が作れるようになれるんでしょう、、!?!?!?

・モチベーションと、集中力を維持するのは難しい。
ということで、説明用資料を作成していた今日ですが、なかなかやる気と集中力がでず、脱線していた時間が多かったです。

プログラム動かしてたり、エラー解決したり、ものを作っている時はすごく集中力がもつんですが、、。

ただでさえ貴重な時間!
モチベーションと集中力をどんなときでも保てるようにしておきたいです。

対策①
よく見てしまうサイトに繋げなくする
対策②
携帯をとりだしにくいところにしまう(やった)
対策③
締切を強く意識する(今日やったが、脱線)
対策④
細切れに休憩(今日やったが、脱線)
対策⑤
やることを小さく分解する。
対策⑥
今自分がなまけている時間、憧れてるNMさんや、MJさんやお世話になったMYさんや、EH先生は、今ごろ10倍の集中力で滅茶滅茶に研究してんだぞ!!
甘い!!
と思う。

本当根が怠惰な人間なので、色々対策ねりたいです。

あ、久しぶりにブログっぽいこと書いた気がします。

multi domain(?)な 入力でテキスト生成(対話文)を行う 8日目

続き

 

kenkyuublog.hatenadiary.jp

 

 

今日はmulti modalな翻訳システムを実行中

GitHub - iacercalixto/MultimodalNMT: Multi-modal Neural Machine Translation in PyTorch

 

有名どころみたいだ。

 

step0から、GPU積んでないよーと怒られる。

そりゃ設定してないからね、、、。

 

NDIVAさんのGPUが入っている昔のMACBOOKPROをせっかく買ったのはいいけど、結局設定できてなくて使えてない。

 

どうしてもこの先(ノパソで)使う必要あるんだったろ頑張ろう。

多分こういう設定系って、パソコンそのものの基礎知識が必要なんだよな、、。

それをさらっとでも体系的に学んでない状態でやると、色々痛いめみるという教訓。

 

しかし、段々deeplerningのライブラリやら記事やら本が世の中に充実してきて嬉しいな〜。

 

別件だが、最近は論文検索性向上系の論文も亀ペースだがまとめている。

そちらもぼちぼち進めたい。

 

 

multi modalな 入力でテキスト生成(対話文)を行う 7日目

 続き

kenkyuublog.hatenadiary.jp

 

もう、平熱が微熱に変わったのではと諦めることにした。

さて、multi modal な入力で応答文を生成するコードを探しているが、なかなか見つからない。

 

連想対話モデル: 発話文から連想した視覚情報を用いた応答文生成(DEIM 2018)

 

の人はどうやったんだろ、、、。

やっぱりen-decのencoderをシンプルに増やして、隠れそうでくっつけるって言うのは、翻訳でも同じなのかな。

 

明日は

論文2本まとめたあと

もうとりあえず翻訳のやつ実装してみよう!!!!

明日の朝で実装!

 

multi modalな 入力でテキスト生成(対話文)を行う 5日目

 続き

kenkyuublog.hatenadiary.jp

 

お熱上がる。へろへろ。

 

multi domain

multi encoder

multi modal

一体どれが参照したのかしら

って思っていたけど

 

multi modalに焦点を当てて

 

multi modalな翻訳タスクのコードは見つかった

GitHub - iacercalixto/MultimodalNMT: Multi-modal Neural Machine Translation in PyTorch

 

しかし、対話がない。

連想対話モデル: 発話文から連想した視覚情報を用いた応答文生成

この方どうやって構築されたんだろ。

完全に何もコード参照せず一からではないと思うし。

翻訳の関連研究やっぱり参照したのかな??

 

やっぱり、翻訳タスクが熱いから、ここのコードを参照すべきなのかな?

 

早くコード見たい!

 

変なこと言うと

論文⇄数式⇄コード

で先行研究を理解するのが、ミステリを読む類の面白さだと思う!

 

 

multi domain(?)な 入力でテキスト生成(対話文)を行う 3日目

 続き

kenkyuublog.hatenadiary.jp

 

とにかくやり方に効率の悪さがめだつ。

日々淡々と同じ日々を繰り返すことを徹底したい。

 

複数のencoderからsequentialな対話文の応答を生成するコードを参照し、動かしながら理解したいんだけど、なかなか見つからない。

画像を絡めて、 text generationするのは絶対有名なのあるはずなんだけどな。

 

そもそも検索ワードがあっているのか。

・multi domain?
・multi modal(マルチモーダル マルチモデルと間違っていた)?

・multi encoder?

多分、multi modalがもっと有力!↓に出てくるようなのイメージ

https://amritasaha1812.github.io/MMD/MMD_AAAI.pdf

 

このmulti encoder はどうやら、複数の時系列情報を入れているから違うかな、複数の言語に対応した翻訳って感じだし、

・Multi-Source Neural Translation(git hub あり)

 

どちらかというと、画像をencoderに付け足すのがイメージに近いんだけどな。

コードある論文探せないなぁ。論文はちらほら見つかるけど。

この分野の有名どころの論文がイマイチわからない。

 

話は変わるがこのサイトすごい!コード付き論文まとめてくださっているの素晴らしい。これでmulti modalも検索してみようかな。

 

 

 

んん、これが近いのか?

Multimodal LSTM for speaker naming

んんーでもencoderを複数にしているわけじゃないっぽいし。。。

うーん。

github.com