multi domain(?)な 入力でテキスト生成(対話文)を行う 3日目
続き
とにかくやり方に効率の悪さがめだつ。
日々淡々と同じ日々を繰り返すことを徹底したい。
複数のencoderからsequentialな対話文の応答を生成するコードを参照し、動かしながら理解したいんだけど、なかなか見つからない。
画像を絡めて、 text generationするのは絶対有名なのあるはずなんだけどな。
そもそも検索ワードがあっているのか。
・multi domain?
・multi modal(マルチモーダル マルチモデルと間違っていた)?
・multi encoder?
多分、multi modalがもっと有力!↓に出てくるようなのイメージ
https://amritasaha1812.github.io/MMD/MMD_AAAI.pdf
このmulti encoder はどうやら、複数の時系列情報を入れているから違うかな、複数の言語に対応した翻訳って感じだし、
・Multi-Source Neural Translation(git hub あり)
どちらかというと、画像をencoderに付け足すのがイメージに近いんだけどな。
コードある論文探せないなぁ。論文はちらほら見つかるけど。
この分野の有名どころの論文がイマイチわからない。
話は変わるがこのサイトすごい!コード付き論文まとめてくださっているの素晴らしい。これでmulti modalも検索してみようかな。
コード付きの8500論文,950タスク,500リーダーボード,700データセットを集めた機械学習のまとめサイトBrowse state-of-the-artが登場.すごい...https://t.co/oKWbKSwIPj pic.twitter.com/pftMM1QOMI
— Ryobot | りょぼっと (@_Ryobot) February 1, 2019
んん、これが近いのか?
Multimodal LSTM for speaker naming
んんーでもencoderを複数にしているわけじゃないっぽいし。。。
うーん。