生物と機械の間(自然言語処理研究と徒然。DeepにLerning中)

自然言語処理研究@レベル1。「コンピュタと人間の相互理解を深める」を大きなテーマにしています。タスクは対話システム。分子生物学から興味が移動したため、生物と機械の間を探しています。生物をモデルにしたプログラムが好きです。

LFDAを実験ようにふわっとしてやってたのを、改めて精密にやる。9

続き

 

kenkyuublog.hatenadiary.jp

 

頭の中がやることで、やりたいことでごちゃごちゃしてイマイチ集中できず。

優先順位。一つひとつ!

部屋に入ったらやること。

▪️①目標を叫ぶ(9月までに実験終わらし、文章にまとめる。1週間に40時間研究する)。

▪️②机の上の定められた位置にものをおく

▪️③スケジュール帖とgoogleスケジュール帳みて、やることの優先順位を決める

▪️④見積もり表を作る

▪️⑤タイマーを設定し1つ目の作業をする。

研究に関する本を集めないとダメだな。

ぜったいにチンタラ、やるな。研究室を出る時間を決めろ。17:00。仕事と一緒!!

 

うーーん。まだ、データのノイズの除去が終わっていない。もう1週間もかかっている。

 

というか。推定したいTwtterのデータを、ノイズ除去いたら、ほとんど1文字も残らない場合もあって泣けるし。

この先対話文の学習でも、こんな1文章の長さじゃ、学習できんわってNNに怒られてしまう。

うーん、データ。データ。データの問題がものすごくつきまとう。

先行研究Twiiter120万とかやっている人いて目が飛び出る。どうやって集めたの!?

というかどうやって学習させたの?データ加工にも時間かかるし。永遠に時間かかるけど、、、。うちにあるのだとマシンパワー全然足りないなぁ。

 

ハァ〜〜〜〜。データ。データ。データ。に頭を悩ませる。

TwiiterAPIでコツコツ集めるしかないの、、、?

100万単位だと年単位かかりそうな勢いだけど、、、、。

やるしかないのか?

とにかくここを乗り越えなきゃ。

 

 

LFDAの理解のためにLDAをお勉強中。

https://qiita.com/nyancook/items/2a6c65ea3d9cb725168f

このサイト様のおかげで、トピック分布と、潜在トピックと、単語の出現分布についてはわかった。

しかし、どうやって生成を学習というか、、、そういうのをするのかイマイチわからない。

トピック分布、潜在トピックは最初は乱数で学習していくイメージもっちゃうけど、多分これNNばっかやってるから考えが洗脳されている。

ディレクレ分布、、、。その分布は最初からトピックの属性を持つものとして得られるのか、、、?それとも、やっぱり乱数の状態から始まってデータが入るにつれて変化するのか?

 

うーむ。

わからない。

生成について勉強しよう。

 

自然言語処理シリーズやるか。

トピックモデルによる統計的潜在意味解析 8(自然言語処理シリーズ)

 

質問応答のやつ返却しよう。

人からずっともの借りているのは気持ち悪い。

 

とにかく作業がアホみたいに遅い。

仕事みたいな速度が出ない。

 

今日の帰りがけは英語の計画に集中。