生物と機械の間(自然言語処理研究と徒然。DeepにLerning中)

自然言語処理研究@レベル1。「コンピュタと人間の相互理解を深める」を大きなテーマにしています。タスクは対話システム。分子生物学から興味が移動したため、生物と機械の間を探しています。生物をモデルにしたプログラムが好きです。

このブログについて

ーこのブログについてー

開始日:2017-8-6。

内容:日々の研究についての記録とアウトプット。日常の徒然。ライフハック。時々筋トレ(?)とか。

分野自然言語処理機械学習。DeepLearning)。

ルール:

1日5分帰りの電車で、昨日より内容の濃いブログを書く(そうすることで加速度UP)。数年後の自分が見返しても意味のわかるブログを書くよう目指して。

→現在鬼速PDCAをやっているので、週レベルに落とす。

 

徒然

自然言語処理研究@レベル1。「研究し社会実装」「コンピュタと人間のコミュニケーションレベルの向上。それにより多様な人がより深くコンピュタからの恩恵を得られるようにする。また、新たな文化を創出する」を死ぬまでにしてみたいと考えています。タスクは外部知識を利用した対話システムです。

お仕事をしながら、細々と個人で研究者として一人前になれるよう足掻いています。やる気は十分!ですが、自分の能力のなさにうえってなってます。時間の使いかた、元気の保ちかた、効率的なやり方、などをもっとあげていかないととてもたちゆかないなと思っているため、ライフハックなどに興味津々です。ちなみにお仕事の方では、「文献情報をより便利に、より早く」を目標にしています。

分子生物学から興味が移動したため、生物をモデルにしたプログラムが好きです。言語獲得や認知などにも興味があります。生物と機械の間を探しています。

ピアノと読書が娯楽です。好きなものは美人とスーツ。最近からだを鍛えるのが楽しいなぁと思っています。

 

 

 

11月反省 3連休 ホゲーっとしている

3連休。見事にお布団でダラダラホゲホゲして終わった。

 

何というか、エネルギーが枯渇していて動けない感じだった。

ひたすらに眠く、2日間は本当にただただお布団で寝ていた。

季節の変わり目だからだろうか。

 

11月、気を引き締めていこう。

平日3時から8時の 4~5時間

休日 午前4時間 と 午後4時間(土日どっちかは休んでよし)

を習慣化したい

 

本当は

平日3時から8時の 4~5時間

休日 午前4時間 と 午後4時間

フルでやりたいけど、生活ごととか含めると意外と体力がなく、疲労が蓄積してダメだった。

土日どちらかは休んでよしとする。

 

いずれかはフルでやりたいけど。

 

これが習慣かするまで、ちょっとしんどくても頑張る。

習慣化するまでがしんどい。でも頑張る。

 

年度内に研究を一本完成させたいが、色々と仮説の時点での間違いを指摘され行き詰まる。

 

があまり深刻に捉えず、淡々と進む。

 

この4月から、10月までに学んだこと

・記録と計画を第一優先に。死んでもこれはやる。

・つまり毎日の睡眠ログ、手帳(タスクを具体的に詳細に)は絶対死んでも貼ってでもやる。

・結果焦ったら死ぬ

・ある一定の脳の研ぎ澄まされた鋭さ、感覚が担保されていないと、あらぬ方向に行って全てがおじゃんになる、鋭さがある時の作業効率はすごい。休みは計画に組み込むべき。瞑想とかも習慣化してみたい。回復と作業のバランス感覚は難しい。

・自分一人じゃ強くならない。人と繋がることで可能性が広がる。私も誰かの可能性を広げられる(微々でも)。三人集まりゃ文殊の知恵。

・一旦プロに触れるのが、一番学びが多い。メイクも美容部員さんや、プロにやってもらうと、何が正しいのかわかるから成長が早い。ピアノも同じ。研究も同じ。論文も、スライドも手本から吸収する。

・メンタル。ユーモア、深刻に考えすぎない。気にしない。8割に嫌われるのが当たり前。2割の人に好かれていれば良い。カレーだって嫌いな人はいる。それと同じ。ただの好み。

・生活美容頑張るのは、メンタルと健康のために重要。

・落ち着きと冷静さ、必要。磨いていこう。

・研究の理念とは?

 

鈍い脳みそで何やったってダメだ

今日、体調悪く1日布団から抜け出せずゴロゴロ。

 

夜にようやく起き上がり、作業に移る。

 

そのとき思ったのが、

鈍い脳みそで何やってもダメだ。

ということ。

 

今まで、なんてグダグダやってたんだ。と感じる。

LFDAに1ヶ月近くもかけてしまったのからも言える。

 

提出していたスライドもあまりにひどい。

 

努力は当たり前。当たり前の足し算。

掛け算のセンスを磨け。センスを盗め。

 

スライドの作り方。

発表の仕方。

論文の書き方。

 

一流の見本から、一流の研究者からセンスを奪え。

テンプレート化出来るものはテンプレート化しろ。

 

いつでも脳を鋭い状態で居られるように休息を食べ物を飲み物を経験を調整しろ。

 

センスだ。直感だ。掛け算を磨け。

愚直に努力だけじゃ結果は出ない。

落合陽一さんのは向いてない。

自分だけの結果を出す方法をもがいて、探せ。

 

 

 

 

 

この感覚は、ピアノをやっていたとき。

弓道をやっていた時に通ずる。

 

スライド

 

Open NMTで発狂する

Open NMTがうまくいっていたのに、エラーが出て、tensorflowとか色々入れ直したら、openNMTのインストール自体もうまくいかなくなった

 

3時間を無駄に

 

せっかく3時からいるのに。何気なさすぎるファイル処理とかで1時間かかっちゃうし

 

多分作業的なプログラム書くのはモチベ上がらない時は、

インプット。論文読みとか勉強とかして気分変えるといいかもしれない。

 

 

LFDAを実験ようにふわっとしてやってたのを、改めて精密にやる。11

続き

 

kenkyuublog.hatenadiary.jp

 

終わった!

下記の内容のデータセットをつくった。
原文,LFDA推定に使った単語,topic番号,topword,topwordの分散表現の平均(先生の方式使いたい),TOPWORDの分散表現に近い単語,それぞれのtopicの推定確率,

よし、これで

 

トライエラーで先行きの見えないものに関しては、

何回トライエラーできるか

何回トライエラーするか

その何回でどれだけのクオリティに持っていきたいかを考えると良いことが知れた。

 

残り3ヶ月でどうやって完成させるか綿密に考えたい。

TwitterAPI で発狂する

やっぱり色々データ足りないなぁと思って

Twiiter API再構築。

 

申請とかどうなのかな?って思ってたけど、使えるように。

 

けど、学校のマシンでできない、、、なんで〜〜〜

streamの変数がNONEなんだけど、

エラーじゃなくてNONEなんだけど。

のパソだと上手く行くし、filterやserchはうまく行くんだけどな。

 

あ〜〜〜〜なんで!?!?!?

と発狂気味。

 

帰って朝の自分に任せよう