multi modalな 入力でテキスト生成(対話文)を行う 7日目
続き
もう、平熱が微熱に変わったのではと諦めることにした。
さて、multi modal な入力で応答文を生成するコードを探しているが、なかなか見つからない。
連想対話モデル: 発話文から連想した視覚情報を用いた応答文生成(DEIM 2018)
の人はどうやったんだろ、、、。
やっぱりen-decのencoderをシンプルに増やして、隠れそうでくっつけるって言うのは、翻訳でも同じなのかな。
明日は
論文2本まとめたあと
もうとりあえず翻訳のやつ実装してみよう!!!!
明日の朝で実装!