頭の中の考えを言葉や図にするのは難しい。モチベーションと集中を維持するのは難しい。
今日の更新は日記です。
・頭の中の考えを、紙に起こすのは難しい
人様に、自分の作りたいシステムについて意見や議論をしてもらうために、資料を作っているんですが、これがなかなか難しいです。
【議論してもらうために】
というからには、①相手の方にスッとわかりやすく入るように説明し、かつ、②どこを自分が論点にしてほしいのか提示しなくちゃいけません。
③あと、詳細を質問されても答えられるようにサブ資料の控えも。
頭じゃわかっちゃいるけれど、実際にそれらを満たす資料を作るのはむずかしい~~~!
研究の本質部分ではないので、ここにあまり時間はかけたくないんですが、せっかく聞いてもらう方の貴重なお時間を無駄にしちゃならないので、手は抜きたくない、、というジレンマ。
とにかく、初っぱなからスライドで作るとえらい時間がかかるので、ノートにラフを何回か書き中。
他の方の論文や、youtubeで学会発表をみながら頑張りたいです。
あ、そういえば、これってお仕事にも必要なスキルですよね。
ああ~~どうやったら、早く説明資料が作れるようになれるんでしょう、、!?!?!?
・モチベーションと、集中力を維持するのは難しい。
ということで、説明用資料を作成していた今日ですが、なかなかやる気と集中力がでず、脱線していた時間が多かったです。
プログラム動かしてたり、エラー解決したり、ものを作っている時はすごく集中力がもつんですが、、。
ただでさえ貴重な時間!
モチベーションと集中力をどんなときでも保てるようにしておきたいです。
対策①
よく見てしまうサイトに繋げなくする
対策②
携帯をとりだしにくいところにしまう(やった)
対策③
締切を強く意識する(今日やったが、脱線)
対策④
細切れに休憩(今日やったが、脱線)
対策⑤
やることを小さく分解する。
対策⑥
今自分がなまけている時間、憧れてるNMさんや、MJさんやお世話になったMYさんや、EH先生は、今ごろ10倍の集中力で滅茶滅茶に研究してんだぞ!!
甘い!!
と思う。
本当根が怠惰な人間なので、色々対策ねりたいです。
あ、久しぶりにブログっぽいこと書いた気がします。
multi domain(?)な 入力でテキスト生成(対話文)を行う 8日目
続き
今日はmulti modalな翻訳システムを実行中
GitHub - iacercalixto/MultimodalNMT: Multi-modal Neural Machine Translation in PyTorch
有名どころみたいだ。
step0から、GPU積んでないよーと怒られる。
そりゃ設定してないからね、、、。
NDIVAさんのGPUが入っている昔のMACBOOKPROをせっかく買ったのはいいけど、結局設定できてなくて使えてない。
どうしてもこの先(ノパソで)使う必要あるんだったろ頑張ろう。
多分こういう設定系って、パソコンそのものの基礎知識が必要なんだよな、、。
それをさらっとでも体系的に学んでない状態でやると、色々痛いめみるという教訓。
しかし、段々deeplerningのライブラリやら記事やら本が世の中に充実してきて嬉しいな〜。
別件だが、最近は論文検索性向上系の論文も亀ペースだがまとめている。
そちらもぼちぼち進めたい。
multi modalな 入力でテキスト生成(対話文)を行う 7日目
続き
もう、平熱が微熱に変わったのではと諦めることにした。
さて、multi modal な入力で応答文を生成するコードを探しているが、なかなか見つからない。
連想対話モデル: 発話文から連想した視覚情報を用いた応答文生成(DEIM 2018)
の人はどうやったんだろ、、、。
やっぱりen-decのencoderをシンプルに増やして、隠れそうでくっつけるって言うのは、翻訳でも同じなのかな。
明日は
論文2本まとめたあと
もうとりあえず翻訳のやつ実装してみよう!!!!
明日の朝で実装!
multi modalな 入力でテキスト生成(対話文)を行う 5日目
続き
お熱上がる。へろへろ。
multi domain
multi encoder
multi modal
一体どれが参照したのかしら
って思っていたけど
multi modalに焦点を当てて
multi modalな翻訳タスクのコードは見つかった
GitHub - iacercalixto/MultimodalNMT: Multi-modal Neural Machine Translation in PyTorch
しかし、対話がない。
・連想対話モデル: 発話文から連想した視覚情報を用いた応答文生成
この方どうやって構築されたんだろ。
完全に何もコード参照せず一からではないと思うし。
翻訳の関連研究やっぱり参照したのかな??
やっぱり、翻訳タスクが熱いから、ここのコードを参照すべきなのかな?
早くコード見たい!
変なこと言うと
論文⇄数式⇄コード
で先行研究を理解するのが、ミステリを読む類の面白さだと思う!
multi domain(?)な 入力でテキスト生成(対話文)を行う 3日目
続き
とにかくやり方に効率の悪さがめだつ。
日々淡々と同じ日々を繰り返すことを徹底したい。
複数のencoderからsequentialな対話文の応答を生成するコードを参照し、動かしながら理解したいんだけど、なかなか見つからない。
画像を絡めて、 text generationするのは絶対有名なのあるはずなんだけどな。
そもそも検索ワードがあっているのか。
・multi domain?
・multi modal(マルチモーダル マルチモデルと間違っていた)?
・multi encoder?
多分、multi modalがもっと有力!↓に出てくるようなのイメージ
https://amritasaha1812.github.io/MMD/MMD_AAAI.pdf
このmulti encoder はどうやら、複数の時系列情報を入れているから違うかな、複数の言語に対応した翻訳って感じだし、
・Multi-Source Neural Translation(git hub あり)
どちらかというと、画像をencoderに付け足すのがイメージに近いんだけどな。
コードある論文探せないなぁ。論文はちらほら見つかるけど。
この分野の有名どころの論文がイマイチわからない。
話は変わるがこのサイトすごい!コード付き論文まとめてくださっているの素晴らしい。これでmulti modalも検索してみようかな。
コード付きの8500論文,950タスク,500リーダーボード,700データセットを集めた機械学習のまとめサイトBrowse state-of-the-artが登場.すごい...https://t.co/oKWbKSwIPj pic.twitter.com/pftMM1QOMI
— Ryobot | りょぼっと (@_Ryobot) February 1, 2019
んん、これが近いのか?
Multimodal LSTM for speaker naming
んんーでもencoderを複数にしているわけじゃないっぽいし。。。
うーん。