生物と機械の間(自然言語処理研究と徒然。DeepにLerning中)

自然言語処理研究@レベル1。「コンピュタと人間の相互理解を深める」を大きなテーマにしています。タスクは対話システム。分子生物学から興味が移動したため、生物と機械の間を探しています。生物をモデルにしたプログラムが好きです。

このブログについて

ーこのブログについてー

開始日:2017-8-6。

内容:日々の研究についての記録とアウトプット。日常の徒然。ライフハック。時々筋トレ(?)とか。

分野自然言語処理機械学習。DeepLearning)。

ルール:

1日5分帰りの電車で、昨日より内容の濃いブログを書く(そうすることで加速度UP)。数年後の自分が見返しても意味のわかるブログを書くよう目指して。

→現在鬼速PDCAをやっているので、週レベルに落とす。

 

徒然

自然言語処理研究@レベル1。「研究し社会実装」「コンピュタと人間のコミュニケーションレベルの向上。それにより多様な人がより深くコンピュタからの恩恵を得られるようにする。また、新たな文化を創出する」を死ぬまでにしてみたいと考えています。タスクは外部知識を利用した対話システムです。

お仕事をしながら、細々と個人で研究者として一人前になれるよう足掻いています。やる気は十分!ですが、自分の能力のなさにうえってなってます。時間の使いかた、元気の保ちかた、効率的なやり方、などをもっとあげていかないととてもたちゆかないなと思っているため、ライフハックなどに興味津々です。ちなみにお仕事の方では、「文献情報をより便利に、より早く」を目標にしています。

分子生物学から興味が移動したため、生物をモデルにしたプログラムが好きです。言語獲得や認知などにも興味があります。生物と機械の間を探しています。

ピアノと読書が娯楽です。好きなものは美人とスーツ。最近からだを鍛えるのが楽しいなぁと思っています。

 

 

 

最近思うこと、研究は山登り。

研究は山登りに近いと思う。

ザッザと登頂に向けて、うんしょこらしょと登って行くイメージ。

 

今まで、仕事と同じようにやっていたけど、うまくいかなかった。

 

なので、土日は山登りするぞって感覚でいる。

 

今週だれてしまっていたので、

鬼速PDCA

山登りメソッド(手帳で可視化)

本メソッド

習慣化

色々と取り組んで反省し、やり方を最適化したい。

 

よっしゃ!今週で荒削りでも文章生成まで行くぞ!

ちまちまLFDAなどをやっており、データのデカさに悩ませられ、

データ作成だけで1ヶ月も使ってしまった。

もっとスマートなやり方すればらぶん3日で終わった。

 

教訓:愚直にやるな。スマートにやる方法を必死こいて考えろ

 

あと、また鉄欠乏になってきたため、しんどい。

立っているのも座っているのもしんどい。

平日はアドレナリンでなんとかなっているけど、休日パー。

鉄剤プリーズ。健康第一。来週めんどくさがらず病院行こう。

 

教訓:疲れの大体の原因が鉄。睡眠不足。ご飯。鉄剤命。平日コーヒーダメ絶対。

 

 

自分のモチベーションのために超荒削りでいいから文章生成までやる決意。

今週中に何らかのAE、AEからのseq2seqを構築してみせるっ!

そんで喋らせてみるぞ

 

PCで分ける

MAC1 →AE+seq2seq(文章生成)

MAC2→LFDA

MACbook →TwiiterAPiプログラム,AEプログラムの模索

 

自然言語処理シリーズ8の トピックモデルによる統計的潜在意味解析も理解したい

文章から抽象的なマルチポイントを取りたいのだが、それだとやっぱりLDAの考え方がしっくり来るような気がする

トピックに当たる部分が抽象的概念

 

数式からプログラミングに表現形式を変えることに最近面白みを感じていて、競プロにも手を出したい

最近、数学は数式じゃない。数式は表現形式、言語だ。っていうあるいに当たり前にことに気づき興奮する。

 

よっしゃ。文章生成まで駆け上がるぞ!!!(そのためには鉄剤)

 

LFDAを実験ようにふわっとしてやってたのを、改めて精密にやる。9

続き

 

kenkyuublog.hatenadiary.jp

 

頭の中がやることで、やりたいことでごちゃごちゃしてイマイチ集中できず。

優先順位。一つひとつ!

部屋に入ったらやること。

▪️①目標を叫ぶ(9月までに実験終わらし、文章にまとめる。1週間に40時間研究する)。

▪️②机の上の定められた位置にものをおく

▪️③スケジュール帖とgoogleスケジュール帳みて、やることの優先順位を決める

▪️④見積もり表を作る

▪️⑤タイマーを設定し1つ目の作業をする。

研究に関する本を集めないとダメだな。

ぜったいにチンタラ、やるな。研究室を出る時間を決めろ。17:00。仕事と一緒!!

 

うーーん。まだ、データのノイズの除去が終わっていない。もう1週間もかかっている。

 

というか。推定したいTwtterのデータを、ノイズ除去いたら、ほとんど1文字も残らない場合もあって泣けるし。

この先対話文の学習でも、こんな1文章の長さじゃ、学習できんわってNNに怒られてしまう。

うーん、データ。データ。データの問題がものすごくつきまとう。

先行研究Twiiter120万とかやっている人いて目が飛び出る。どうやって集めたの!?

というかどうやって学習させたの?データ加工にも時間かかるし。永遠に時間かかるけど、、、。うちにあるのだとマシンパワー全然足りないなぁ。

 

ハァ〜〜〜〜。データ。データ。データ。に頭を悩ませる。

TwiiterAPIでコツコツ集めるしかないの、、、?

100万単位だと年単位かかりそうな勢いだけど、、、、。

やるしかないのか?

とにかくここを乗り越えなきゃ。

 

 

LFDAの理解のためにLDAをお勉強中。

https://qiita.com/nyancook/items/2a6c65ea3d9cb725168f

このサイト様のおかげで、トピック分布と、潜在トピックと、単語の出現分布についてはわかった。

しかし、どうやって生成を学習というか、、、そういうのをするのかイマイチわからない。

トピック分布、潜在トピックは最初は乱数で学習していくイメージもっちゃうけど、多分これNNばっかやってるから考えが洗脳されている。

ディレクレ分布、、、。その分布は最初からトピックの属性を持つものとして得られるのか、、、?それとも、やっぱり乱数の状態から始まってデータが入るにつれて変化するのか?

 

うーむ。

わからない。

生成について勉強しよう。

 

自然言語処理シリーズやるか。

トピックモデルによる統計的潜在意味解析 8(自然言語処理シリーズ)

 

質問応答のやつ返却しよう。

人からずっともの借りているのは気持ち悪い。

 

とにかく作業がアホみたいに遅い。

仕事みたいな速度が出ない。

 

今日の帰りがけは英語の計画に集中。 

 

 

 

 

LFDAを実験ようにふわっとしてやってたのを、改めて精密にやる。8

続き

 

kenkyuublog.hatenadiary.jp

 

最近きちんと電車の時間は研究!って出来ていない。余計なことしてる。

電車の時間は研究以外のことはやらない!絶対だ。

そのほかのことは降りてから。

そして、今日のノルマが終わらなかったら、駅から離れて家に帰らない。

英語も研究も!

論文のまとめは15分!実装は1時間!

 

Improving Topic Models with Latent Feature Word Representations(ACL2015)

をさらっと読んで実装を使っていたが、式レベルで理解したいと思う。

やっぱり理解していないと気持ち悪いし、やっぱり式レベルで理解して動かすのは純粋に楽しい。

 

ふうむ、ここを理解してこの前の論文ん読み解きたい。

 

LF(分散表現)+LDA

LF+DMM

の2パターンのモデルなんだけど

いまいちLDAとDMMの違いがわかっていない。

 

 

英語がぼちぼちとしていないからダメだな。

きちんと計画的にやらないと、、、。

ちょっとゆるゆるした時間が長いな。

 

あの、入社当初の是が非でも結果出すためにはどうすればいいんだろうと必死になった感じが薄い(特に英語)

それは良くはないんだけれども、それぐらいの結果は出したい。

 

1日4時間やれていない。悔しい。

11月にTOEC申しこんで800点超えるど。

 

もともと飲み会行かないけど、忘年会新年会の行事ごとまで飲み会はお預け。

アァー今週できなかったなぁ。ノルマ分くそーっ悔しい。

LFDAを実験ようにふわっとしてやってたのを、改めて精密にやる。7

 

kenkyuublog.hatenadiary.jp

 

うだうだスケジューリングが下手で

データのリムーブすら終わっていない状態

精度向上のアプローチの方向性を決めて、何をどう優先順位つけて、しかも一つ一つやる意識が足りなかった。無駄に力が分散していた。

ひとつ、ひとつ。一つに集中して。

効率悪いようで、これが結局効率いい。

 

スケジューリングをもっと心地よく、だけど確実で協力で自分にあった方法を模索している。

今はシンプルにの方向に。

やっぱりルーティーンかなぁ。

毎日の気づいたことをためて、その時の気分で今のルーティーンに枝で付け足して(何かの習慣に何かを付随させる。)、

 

ルーティーンがいいのか。

ボトムアップがいいのか

トップダウンがいいのか

直感がいいのか

 

シンプルな何かを探している、、、、

LFDAを実験ようにふわっとしてやってたのを、改めて精密にやる。6

続き

 

kenkyuublog.hatenadiary.jp

今日やったこと。

LFDAのコヒーレンスの評価メトリクスについて書かれた論文のまとめ。

LFDAを使ったやつの大体の評価と、どういったパラメタでやればいいのかはわかったから。LFDA(LDA)が他タスクに生かすのにはどれぐらいの精度を出せばいいのかがわかる論文を探す。上記で述べたLFDAの評価メトロリクスが被ったものは探せず。違う評価手法で探さなければならないかもしれない。

 

英語

単語間違えたやつ、ディクテーション。

色々と足りない。

戦略を練るのが大事。焦る気持ちを抑えて、戦略を練ろう。

 

雑多でいいから今日やったことのレコーンディングは実際の理想の作業量とのギャップが見えてくるから良い。

 

お金の勉強、生活もレコーンディングしていきたい。 

 

お金→今日Tさんに習ったことを実行に写す。

とにかく、毎日レコーデイングすることが大事だ。

 

 

 

先生に見せるまであと10日を切った、それまでに精度上がったLFDAと評価結果見せたいけど、LFDAのデータメイクするぐらいで10日ぐらいかかってる。おっそ

 

 

力が分散しているきがするので、1度にやることは1つ!

1つ1つずつ

着実に

それが終わるまで次に行かない!!

◽️twiiterLFDAやり直し(実行中)

→◽️エバリューション。コヒーレンスクラスタリング

→◽️twiiterAPIで新しいデータの入手

→◽️wikipediaのデータを分割して行う。

 

新たに英語も入れる。

TOEIC800点に向けて、

戦略を練る。戦略をノートにあげるの一番大事。ここ終わってから始める。!!!

大体の感じがつかめてきたので、教材をどう使うかの戦略を練ってノートに。

 

自分の幸せコントロールのために、10分料理と10分掃除は大事。