(整理予定)言語処理道一合目

対話システム・言語処理についてぼちぼち頑張るブログ

LFDAを実験ようにふわっとしてやってたのを、改めて精密にやる。10

続き

 

kenkyuublog.hatenadiary.jp

 

LFDAノイズ減らしたり、パラメータ調整したやつ結果出たけど、topwordのコヒーレンスは上昇したけど、普通にクラスタリングは微妙な感じ。

 

でも、一回文章生成まで行きたい!自分のモチベーションのために。

 

ノイズ減らすと空行が出てきてしまい、元文と行数での照らし合わせができなくなってしまったため、照らし合わせるためのプログラムを作成しないと。

 

はぁ〜〜〜おっそ!作業おっそ!

なんか夜は悲しくなるから、明日の朝の自分に色々任せる

 

seq2seqでsemanticmemoryを作る 1

ぼーっとしてなかなか集中力でず、禁断コーヒーに手を出してしまう。

シャキッ。集中できた。

けど、やっぱり集中力とか色々有限なんだなぁと思う。うーむ。

 

seq2seqを用いてRNNAE作ろうと思った。

前にもtensorflowで作ったことがあるので、楽勝だろうと思ったら、案外迷走。

 

他の人から見て再現性が高いものにしたかったので、公式ライブラリのseq2seqを使いたかった。

 

 

前のは、tensorflowのチュートリアルの使ったけど、バージョン古すぎるので断念。

 

じゃあ、今流行りのkerasでやろうとしたけれども、公式ドキュメント色々簡素すぎて結局自分で色々atteintionとかsoftmaxの調整とかemmbadiingとか作らないといけない感じだった。

人様のkerasプログラムも精度出ればいいけど、再現性と信頼性という意味でできれば避けたかった。

ので、元祖tenorrflowの公式チュートリアルをこころみたけれども、

全部チュートリアルjupyterなっとる!という悲しみ。

わかりやすいけど、色々やる辛いなーと思う。

 

そこで、思い出したのがopenNMT。

これは簡単。サクッと行けそうな感じ。

だけど、後々自分で色々中弄ろうとした時。(multi入力にしようとした時)

困るなーとも思う。

 

やはりtensorflowのチュートリアルpython用に書き換えるのが一番なのかな・・・。

 

早く文章生成やりたかったのになぁ。

 

最近思うこと、研究は山登り。

研究は山登りに近いと思う。

ザッザと登頂に向けて、うんしょこらしょと登って行くイメージ。

 

今まで、仕事と同じようにやっていたけど、うまくいかなかった。

 

なので、土日は山登りするぞって感覚でいる。

 

今週だれてしまっていたので、

鬼速PDCA

山登りメソッド(手帳で可視化)

本メソッド

習慣化

色々と取り組んで反省し、やり方を最適化したい。

 

よっしゃ!今週で荒削りでも文章生成まで行くぞ!

ちまちまLFDAなどをやっており、データのデカさに悩ませられ、

データ作成だけで1ヶ月も使ってしまった。

もっとスマートなやり方すればらぶん3日で終わった。

 

教訓:愚直にやるな。スマートにやる方法を必死こいて考えろ

 

あと、また鉄欠乏になってきたため、しんどい。

立っているのも座っているのもしんどい。

平日はアドレナリンでなんとかなっているけど、休日パー。

鉄剤プリーズ。健康第一。来週めんどくさがらず病院行こう。

 

教訓:疲れの大体の原因が鉄。睡眠不足。ご飯。鉄剤命。平日コーヒーダメ絶対。

 

 

自分のモチベーションのために超荒削りでいいから文章生成までやる決意。

今週中に何らかのAE、AEからのseq2seqを構築してみせるっ!

そんで喋らせてみるぞ

 

PCで分ける

MAC1 →AE+seq2seq(文章生成)

MAC2→LFDA

MACbook →TwiiterAPiプログラム,AEプログラムの模索

 

自然言語処理シリーズ8の トピックモデルによる統計的潜在意味解析も理解したい

文章から抽象的なマルチポイントを取りたいのだが、それだとやっぱりLDAの考え方がしっくり来るような気がする

トピックに当たる部分が抽象的概念

 

数式からプログラミングに表現形式を変えることに最近面白みを感じていて、競プロにも手を出したい

最近、数学は数式じゃない。数式は表現形式、言語だ。っていうあるいに当たり前にことに気づき興奮する。

 

よっしゃ。文章生成まで駆け上がるぞ!!!(そのためには鉄剤)

 

LFDAを実験ようにふわっとしてやってたのを、改めて精密にやる。9

続き

 

kenkyuublog.hatenadiary.jp

 

頭の中がやることで、やりたいことでごちゃごちゃしてイマイチ集中できず。

優先順位。一つひとつ!

部屋に入ったらやること。

▪️①目標を叫ぶ(9月までに実験終わらし、文章にまとめる。1週間に40時間研究する)。

▪️②机の上の定められた位置にものをおく

▪️③スケジュール帖とgoogleスケジュール帳みて、やることの優先順位を決める

▪️④見積もり表を作る

▪️⑤タイマーを設定し1つ目の作業をする。

研究に関する本を集めないとダメだな。

ぜったいにチンタラ、やるな。研究室を出る時間を決めろ。17:00。仕事と一緒!!

 

うーーん。まだ、データのノイズの除去が終わっていない。もう1週間もかかっている。

 

というか。推定したいTwtterのデータを、ノイズ除去いたら、ほとんど1文字も残らない場合もあって泣けるし。

この先対話文の学習でも、こんな1文章の長さじゃ、学習できんわってNNに怒られてしまう。

うーん、データ。データ。データの問題がものすごくつきまとう。

先行研究Twiiter120万とかやっている人いて目が飛び出る。どうやって集めたの!?

というかどうやって学習させたの?データ加工にも時間かかるし。永遠に時間かかるけど、、、。うちにあるのだとマシンパワー全然足りないなぁ。

 

ハァ〜〜〜〜。データ。データ。データ。に頭を悩ませる。

TwiiterAPIでコツコツ集めるしかないの、、、?

100万単位だと年単位かかりそうな勢いだけど、、、、。

やるしかないのか?

とにかくここを乗り越えなきゃ。

 

 

LFDAの理解のためにLDAをお勉強中。

https://qiita.com/nyancook/items/2a6c65ea3d9cb725168f

このサイト様のおかげで、トピック分布と、潜在トピックと、単語の出現分布についてはわかった。

しかし、どうやって生成を学習というか、、、そういうのをするのかイマイチわからない。

トピック分布、潜在トピックは最初は乱数で学習していくイメージもっちゃうけど、多分これNNばっかやってるから考えが洗脳されている。

ディレクレ分布、、、。その分布は最初からトピックの属性を持つものとして得られるのか、、、?それとも、やっぱり乱数の状態から始まってデータが入るにつれて変化するのか?

 

うーむ。

わからない。

生成について勉強しよう。

 

自然言語処理シリーズやるか。

トピックモデルによる統計的潜在意味解析 8(自然言語処理シリーズ)

 

質問応答のやつ返却しよう。

人からずっともの借りているのは気持ち悪い。

 

とにかく作業がアホみたいに遅い。

仕事みたいな速度が出ない。

 

今日の帰りがけは英語の計画に集中。 

 

 

 

 

LFDAを実験ようにふわっとしてやってたのを、改めて精密にやる。8

続き

 

kenkyuublog.hatenadiary.jp

 

最近きちんと電車の時間は研究!って出来ていない。余計なことしてる。

電車の時間は研究以外のことはやらない!絶対だ。

そのほかのことは降りてから。

そして、今日のノルマが終わらなかったら、駅から離れて家に帰らない。

英語も研究も!

論文のまとめは15分!実装は1時間!

 

Improving Topic Models with Latent Feature Word Representations(ACL2015)

をさらっと読んで実装を使っていたが、式レベルで理解したいと思う。

やっぱり理解していないと気持ち悪いし、やっぱり式レベルで理解して動かすのは純粋に楽しい。

 

ふうむ、ここを理解してこの前の論文ん読み解きたい。

 

LF(分散表現)+LDA

LF+DMM

の2パターンのモデルなんだけど

いまいちLDAとDMMの違いがわかっていない。

 

 

英語がぼちぼちとしていないからダメだな。

きちんと計画的にやらないと、、、。

ちょっとゆるゆるした時間が長いな。

 

あの、入社当初の是が非でも結果出すためにはどうすればいいんだろうと必死になった感じが薄い(特に英語)

それは良くはないんだけれども、それぐらいの結果は出したい。

 

1日4時間やれていない。悔しい。

11月にTOEC申しこんで800点超えるど。

 

もともと飲み会行かないけど、忘年会新年会の行事ごとまで飲み会はお預け。

アァー今週できなかったなぁ。ノルマ分くそーっ悔しい。

LFDAを実験ようにふわっとしてやってたのを、改めて精密にやる。7

 

kenkyuublog.hatenadiary.jp

 

うだうだスケジューリングが下手で

データのリムーブすら終わっていない状態

精度向上のアプローチの方向性を決めて、何をどう優先順位つけて、しかも一つ一つやる意識が足りなかった。無駄に力が分散していた。

ひとつ、ひとつ。一つに集中して。

効率悪いようで、これが結局効率いい。

 

スケジューリングをもっと心地よく、だけど確実で協力で自分にあった方法を模索している。

今はシンプルにの方向に。

やっぱりルーティーンかなぁ。

毎日の気づいたことをためて、その時の気分で今のルーティーンに枝で付け足して(何かの習慣に何かを付随させる。)、

 

ルーティーンがいいのか。

ボトムアップがいいのか

トップダウンがいいのか

直感がいいのか

 

シンプルな何かを探している、、、、