生物と機械の間(自然言語処理研究と徒然。DeepにLerning中)

自然言語処理研究@レベル1。「コンピュタと人間の相互理解を深める」を大きなテーマにしています。タスクは対話システム。分子生物学から興味が移動したため、生物と機械の間を探しています。生物をモデルにしたプログラムが好きです。

このブログについて

●このブログについて●

仕事をしながらほぼ独学で自然言語処理の研究を細々頑張る人のブログ。

タスクは外部知識を利用した対話システムです。

コンピュタと人間のコミュニケーションレベルの向上。それにより多様な人がより深くコンピュタからの恩恵を得られるようにする。また、新たな文化を創出するを目標に。

論文まとめ、論文実装、日記、など。

 

論文習慣

1日10分とにかく論文を読む。まとめる。を2019年12月まで試験的に実施中。

目標は、1日1論文。1週間1gitとか論文の実装もあげて生きたい。

新しく自然言語処理をやる人にために、自然言語処理の英単語帳も作りたい。と思っている。

*風邪や体調不良の時は、論文名だけあげて3分間でやれるところまで行い、後は(途中)とする。とにかく毎日続けることを大切に。 

良いものを作りたい

良いものを作りたい(クールでかっちょいいものを作りたい!)

知りたい!(知能の不思議を)

 

自己紹介

お仕事をしながら、細々と個人で研究者として一人前になれるよう足掻いています。やる気は十分!ですが、自分の能力のなさにうえってなってます。時間の使いかた、元気の保ちかた、効率的なやり方、などをもっとあげていかないととてもたちゆかないなと思っているため、ライフハックなどに興味津々です。ちなみにお仕事の方では、「文献情報をより便利に、より早く」を目標にしています。

分子生物学から興味が移動したため、生物をモデルにしたプログラムが好きです。言語獲得や認知などにも興味があります。生物と機械の間を探しています。

ピアノと読書が娯楽です。好きなものは美人とスーツ。最近からだを鍛えるのが楽しいなぁと思っています。

 

 

開始日:2017-8-6。

 

勉強法で抑えるべきポイントとは? ゆー式★勉強法マップで自分に足りない要素を探そう!

前回の以下の記事でもお伝えしましたが、適切な勉強法は人によって違います。

honblog.hatenadiary.jp

 

けれども、勉強法には大きく抑えるべきポイントがあると思っています。

それは

「動機」と「決意」

そして、「モチベーション」「進捗管理」「集中力」「その他(出力法・インプット法・理解法など)」
です。

イメージとしては、動機と決意を土台に、「モチベーション」「進捗管理」「集中力」「その他(出力法・インプット法・理解法)」を回していくイメージです。

f:id:hootate:20201031235434p:plain

 

 

「動機」と「決意」がないと、まず何も始まらないですよね!
また、ここの意思が固ければ固いほど、どんな困難にも立ち向かっていけますし、最終的に達成できるかどうかは、ここが大きく関わってくると思います。

「動機」と「決意」のが強く固まった後、つまり「どこに辿りつきたいか?」
が決まったあろ、次に、どういう風に辿りつくか?進むことができるんですね。

そこで、効率的な「勉強法」が必要になってくるわけです。

勉強は様々にありますが、抑えるべきポイントは

「モチベーション」「進捗管理」「集中力」「その他(出力法・インプット法・理解法など)」

に、当てはまる自分にあった勉強法を用意することだと思っています。

この、各カテゴリに自分にあった勉強法を当てはめていく

 

「ゆー式★勉強法マップ」を次回はお伝えしたいと思います★

 

【今日のゆー式★下克上勉強法ワンポイント】
 動機、決意を固めたあと、自分にあった「モチベーション」「進捗管理」「集中力」「その他(出力法・インプット法・理解法)」の関する勉強法を埋めよう。

 

自分自信では、今「集中力」の部分に関してが弱く

「自分の思うようなインプットとアウトプットの速度が得られない」

と悩んでいます。私も勉強法の見直しを早速してみたいと思います★

 

 

 

日々のブログ

もの捨てたい。

 

コロナで、なるべく家にいると、自分の部屋ってもの多いなぁ、頭の中ごちゃごちゃするなぁってふいに嫌になる。

 

勉強の休憩時間に、断捨離を決行する。

 

目指せ、身軽なシンプルライフ

来年の1月までには、本の中の暮らしみたいな、シンプルな暮らしがしたい。

 

スモールステップ

一日一論文まとめたい。
と宣言したが、色々私事で思うことがあって一回ストップ。

覚悟が決まるまで、次のステップには進まない。

お仕事も年末で頑張りすぎて、ダウンしていたし。
人から疲れてるよ、とか顔死んでるよ、とか言われてたから、休むべきと学習。

ただ、ゆるゆるとブログ、続けたいのでスモールスモールステップ。
毎日一日開く!だけを目標に。

来年は、アウトプットをより自分の進みたい道に直接繋がって人の役に立つようなのにしてみたいな。
とすはと、GitHubに作ったのあげたり、英論文まとめ投稿か?あと、競プロやったり、英語ももっとがんばりたいな、爆速で論文読めるよう、

自分でコントロールできることをひたすらがんばりたい。

【論文読み】Emotional Chatting Machine: Emotional Conversation Generation with Internal and External Memory(AAAI -2018)

どんなもの?

雑談型対話システムに感情を組み込むことでより豊かな応答をしようと言うシステム。

下記3つの機構で感情を制御

Emotion Category Embedding

Internal Memory

External Memory

 

先行研究と比べてどこがすごい?

先行研究には、下記3点の問題点があった、それを解決する。

①感情報情報のついた、対話文を収集するのが難しい。何故ならば、それはとても主観的なものだから。同じ文章でも感じ方が違うように。

②感情情報を自然に反映させるのが難しい。文法情婦や単語情報を壊さず。つまり、感情方法を反映させすぎて、不自然な応答になる。

③???先を読みすすめる


技術の肝はどこ?

上記問題点を解決するため、3つの技術を合わせている

肝は、クラスタリングで大規模な感情付対話の学習データを作成したこと

また、感情表現を自然に加えるため、インターナルメモリー(感情状態。コロコロ感情変わると困る)と感情表現をだすか、一般的な応答をだすのが正解か選択できるえくすたーなるメモリーとで調整。

 

論文読み:Interaction-Aware Topic Model for Microblog Conversations through Network Embedding and User Attention(COLING2018)

どんな研究?

読み途中

・対話文から、話題の推定。

論文読み: Diversity-Promoting Objective Function for Neural Conversation Models(2015)

どんなもの?

タスクは、応答の多様性が低い問題の解決に挑む。

seq2seqの目的関数をいじり、モデルの学習の際、良く使われる応答を生成しようとすると、ペナルティを与えるような目的関数を設定した(MMI)。

To the best of our knowledge, this paper represents the first work to address the issue of output diversity in the neural generation frameworkとの記述があるように、

NN系の文章生成タスクにおいて、多様性と言う観点を導入した最初の研究であるということが肝である。

 

先行研究と比べてどこがすごい?

先行研究では、翻訳に適したような目的関数を利用していた。この研究では、多様性という観点から目的関数を対話システムに合わせて作り直した。

(お〜!)

 

 

技術や手法のキモはどこ?

seq2seqの目的関数に、MMIを導入したこと。

基本的な考え方としては T̂ =argmaxT{log(T|S)−logp(T)}T^=argmaxT{log⁡(T|S)−log⁡p(T)} を最大化することで生成される文がいわゆる典型的な表現であった場合にペナルティを加える、というもの。相互情報量。なんだったっけ。

 

どうやって有効だと証明した?

評価方法

・BLUE(参照文(訳?):IMSDB data(映画の字幕データ)らしい)

https://arxiv.org/pdf/1510.03055.pdf

・unigrams and bigramsと数える

(he value is scaled by total number of generated tokens to avoid favoring long sentences)

とあるけど、単純に、1単語単位と2単語単位の種類の豊富さで評価するということなのだろうか。

 

議論はある?+自分のコメント

この研究はNN系に文章生成タスクにおいて多様性という観点を組み込んだ最初のタスク。

この先、その人の個人にパーソナライズした、また、その人の興味にお合わせたような応答を出力するシステムの研究が進むだろう。また、対話システムに限らずこの研究は、image-description gener や question answering,などのほかのタスクにも生かせるだろう。

(自分メモ)単純に、このdiversityのように、トピックが応答に合致していたら、スコアを上げる。っていう風にできないのかな。というか、そういう研究ありそうだけどな。(この被引用文献探し中)

 

次に読むべき論文は?

参考文献の中では、目的関数系の論文かしら

・Deep captioning with multimodal recurrent neural networks(2015)(ICLR)

あと元祖の目的関数知るのは元のseq2seqの論文だよね

・Building end-to-end dialogue systems using generative hierarchical neural network models(2016)(AAAI)

Sordoniさんすごいな〜〜〜

・後続の研究ではこんなのもある

Another Diversity-Promoting Objective Function for Neural Dialogue Generation (2018)(AAAI)

言ってた通り、パーソナル系の論文とか、イメージキャプションのもあったはずだ。