LFDAを実験ようにふわっとしてやってたのを、改めて精密にやる。
続き
今週中にやりたいのは、
★・twiiterの推定が途中で切れてるから、それをきっちり10万文やる!
★wikipediaで学習し、推定をtwitterにしてみる?(うまく行く気があまりしない)
・twitterデータの「こと」「もの」「その」などのノイズをより抜くこと
・twiiterAPIを用いてラベルつき評価データを集める。評価し、参考文献レベルに。
・トピックコヒーレンスの評価。参考文献レベルに。
で、今日は、「こと」「もの」「その」などのノイズを抜くことだが(というかプログラム上では抜けているはずだけど抜けていなう。)、gitにあげようと思いファイルの整理だけで終わってしまった。
本当作業がげきおそ!!!行きの電車も帰りの電車もタイマーで測りたい。
明日中にはノイズを抜きたい。
やはり、評価データ集めるにしても、対話文もう少し長いの集めるにしても
twiiterAPIの申請必要だな!
ノイズ落としたら、TwiiterAPIの申請をしよう!