(整理予定)言語処理道一合目

対話システム・言語処理についてぼちぼち頑張るブログ

multi domain(?)な 入力でテキスト生成(対話文)を行う 3日目

 続き

kenkyuublog.hatenadiary.jp

 

とにかくやり方に効率の悪さがめだつ。

日々淡々と同じ日々を繰り返すことを徹底したい。

 

複数のencoderからsequentialな対話文の応答を生成するコードを参照し、動かしながら理解したいんだけど、なかなか見つからない。

画像を絡めて、 text generationするのは絶対有名なのあるはずなんだけどな。

 

そもそも検索ワードがあっているのか。

・multi domain?
・multi modal(マルチモーダル マルチモデルと間違っていた)?

・multi encoder?

多分、multi modalがもっと有力!↓に出てくるようなのイメージ

https://amritasaha1812.github.io/MMD/MMD_AAAI.pdf

 

このmulti encoder はどうやら、複数の時系列情報を入れているから違うかな、複数の言語に対応した翻訳って感じだし、

・Multi-Source Neural Translation(git hub あり)

 

どちらかというと、画像をencoderに付け足すのがイメージに近いんだけどな。

コードある論文探せないなぁ。論文はちらほら見つかるけど。

この分野の有名どころの論文がイマイチわからない。

 

話は変わるがこのサイトすごい!コード付き論文まとめてくださっているの素晴らしい。これでmulti modalも検索してみようかな。

 

 

 

んん、これが近いのか?

Multimodal LSTM for speaker naming

んんーでもencoderを複数にしているわけじゃないっぽいし。。。

うーん。

github.com