生物と機械の間(自然言語処理研究と徒然。DeepにLerning中)

自然言語処理研究@レベル1。「コンピュタと人間の相互理解を深める」を大きなテーマにしています。タスクは対話システム。分子生物学から興味が移動したため、生物と機械の間を探しています。生物をモデルにしたプログラムが好きです。

強く、賢く、美しく。クラシック、クール、チャーミング。 本気に必死に。

このブログについて

ーこのブログについてー

開始日:2017-8-6。

内容:日々の研究についての記録とアウトプット。日常の徒然。ライフハック。時々筋トレとか見た目のことについて。

分野自然言語処理機械学習。DeepLearning)。

 

徒然

自然言語処理研究@レベル1。「コンピュタと人間の相互理解を深める」を大きなテーマにしています。タスクは外部知識を利用した対話システムです。

お仕事と個人で研究をしています。どちらもやる気は十分!ですが、自分の能力のなさにうえってなってます。時間の使いかた、元気の保ちかた、効率的なやり方、などをもっとあげていかないととてもたちゆかないなと思っているため、ライフハックなどに興味津々です。お仕事では、「文献情報をより便利に、より早く」を目標にしています。

分子生物学から興味が移動したため、生物をモデルにしたプログラムが好きです。言語獲得や認知などにも興味があります。生物と機械の間を探しています。

ピアノと読書が娯楽です。好きなものは美人とスーツ。最近からだを鍛えるのが楽しいなぁと思っています。

 

 

 

映画「セッション」

先日、ひっさしぶりにDVD借りて映画を見ました。

 

映画「セッション」、ジャズの映画です。

 

映画「マイ・インターンが」が大好きでそれを借りに行ったのですが、

なんとなく気になって借りたDVDでした。(ここ1年JAZZが好きになり始めているので)

 

ラストシーン、自分でもなんでかわからないほど込み上げるものがあって、

泣いてました。もう泣いているというか、咽び泣いてるという感じ、、、汗

嗚咽があげて泣いたのって、10年ぶりぐらいかもしれない、、、。

(映画では初めて)

 

昇華。

 

それを書いた作品なのかなぁ、と生意気ながらにも思いました。

 

技術を何かを極めて昇華までさせるのには、多分、楽しいだけじゃだめで。

挫折、悔しさ、覚悟。そういう負のものもまぜこぜにしたハングリー精神は絶対必要で。

 

また、なんとなく現代の「甘さ」のもたらす悪性を描いているような気もして、

身をつまされる思いでした。

「自分あまっあまの中だな」

と。

そしてそのことへのありがたみと害悪の両方をしっかり覚えておこうと思ったのでした。

 

研究や知的生活とかお仕事とかで高みに行こうとするは多分ちょっとベクトル違うけど。(ユーモアとか、ある程度のあそびとか、協力とか必要だし)

音楽とかスポーツとかを極めるって多分こういうことが、高みに行くってことなんだろうなぁと思いました。

 

印象に残った言葉は

世の中、甘くなった。ジャズが死ぬわけだ。

(ジャズの世界で)もっとも危険な言葉は、「上出来だ(グッド・ジョブ)」という安易な言葉だよ。

「シンバルを投げられて泣いた理由を考えてみろ(多分原文ろ違う)」

 

おかげさまで、今日はcaravanを聴いてます。

 

(書いた時間36分)

session.gaga.ne.jp

1年間振り返り ー1

年末年始の過ごしかた反省

年末年始おやすみ。

28 寝

29 お買い物 研究室 

30 研究室 人に会う

31 研究室いくも空いておらず。仕方なくカフェで2時間ほど論文読み

 

せっかくのお休みをひたすらポケーッとしてして過ごしてしまった気がする。

どうせならお片付け!とか、パーっと遊びに行った方が良かったかな。読めなかった本読んだりDVD見たりしたりさ。

色々と濃度の低い四日間をすごしてしまった。反省。どうせなら思いっきり遊んでた方がましだったな。

 

1年間やったこと

振り返らないと、1年やったことが、パーっとどこかに飛んでしまいそうな気がするから、振り返ってみる。

今年やったこと・できたこと・できなかったこと↓

●研究(ボトムアップでの研究に挑戦。しかし、失敗)

研究(1-3月)冬春

wordnetを使って、wikipediaの単語の上位語、もしくは下位語を永遠につたって取れるようなシステムを作った。(つまり、上位語の上位語の上位語、、とかを取れるようにした)

②chainerでAE(オートエンコーダ)を実装し、単語の分散表現をAEにかけてベクトルを圧縮した時word2vecにどういう風にマッピングされるかをみた。

③chainerでCNNも実装した。

④ゼロから作るdeeplerning1をあらかたやった。

⑤春ごろになると、8:30寝3:30起きが大体できるように

概要:自然言語処理システム、主に対話システム、未知語問題を解決すべく、未知語を、未知じゃない語に統制させれば良いのではないかと思った(概念的なにか)。

無理やり機械学習をしたかったので、単語に分散表現をAE(オートエンコーダ)すれば、その隠れ層に上位語的な概念的何かが得られて面白いのでは。使えるのでは。と思った。

→色々と研究というものがわかっておらず、問題提起からして間違っていた。ぼつ。記録を見たら、ぼつを二回繰り返している。オートエンコーダと、CNNどちらも、対和文からの話題語の推定がタスクである。

 

 

研究 夏(1ヶ月ぐらい体不調でロクに研究できず)

積ん読で論文を読むことを覚えた。

トップダウンの着想を得た。

⑧報告書を毎週かいた。

 

研究(秋・冬)夏(トップダウンの研究方法に変更。タスクを丸ごと変える)

⑨ゼロから作るdeeplerning2半分までやった

⑩クエスチョンアンサーの文章をwebからスクレイピングするプログラムを書いた

11 fasttextを使ってデータ分類をした

12 LDAとその拡張版の構築をした。文章のトピック推定を行なった。

13 fitに行った。

 

 

●英語(toeicの点数700点超えられず、、がっくし。ただ英語論文は前より読めるようになったし、利用者対応度も若干UP)

①毎日英語で日記を書いた。

②毎日英語でラジオを聞いた。

英会話教室週一を1ヶ月ぐらいやった。

TOEICスコアアップ研修を週一2ヶ月ぐらいやった

TOEIC-IPの最高スコアを更新した(655)(本当は700超えないと人事様が悲しむ、、から伸びなくて悲しい)

⑥オンライン英会話を1年間やった

⑦先輩に週一で英語1分間スピーチを見てもらった

⑧英語論文前より苦なく頭に入ってくるように読めて感動。やっぱり、翻訳機通すと手間だし、なんか頭に入ってこない感じというか理解しにくい感じがあったから大分楽に。もっと英語力あげたら、もっと楽に読めるのかな、

概要:特に苦なく楽しくやっていた。そこまで結果も求めてなかった。が、継続的に行ってたことにより、結果的にtoec上がってた。

●仕事

の反省は後で。

 

 

 

反省

・冬・春・夏ともに、常に疲れていたみたいだ。貧血が原因なのも大きい。そんで、自分に期待した作業量ができなくて悔しくて、そんで結果が出なくて泣いてばかりだったんだな、って記録を見て思った。体も一回軽く壊しているし。今ぐらいになって、ようやく体を壊さなくなっているかもしれない。それはだらけているからとも言えるけど笑

自分では必死すぎて気づかなかったけど、はたから見ると随分と辛そうに過ごしてたんだなって思う。いや、でもやっぱり本人的にはそうでもなかったけどね。

 

気づき

辛いのは効率が悪い。ストイックは効率が悪い。多分。

「結果が全て」「行動が全て」と考えて、

逆算で計画して実行しようとするのはとても大事。

でもそこに「辛さ」があって、それを乗り越えようとするスタンスは多分。効率が悪い。日本的で美しい感じもするけど。

自分に厳しく、人に優しく。それを目指しなさい。と言われていた私には。そして、「泣くまでやれ。泣くまでだ」と思っていた私には受け入れ難いけど。

楽しい。中毒性。没頭性をベースに。そこをフル活用して。それでも行動できないときは厳しさを利用する。という風に変えてみたい。

 

来年の方向性

・作業スピードめちゃ遅かった。びっくりだ。爆速にしたい(どうすれば)落合陽一さんみたいに。

・「辛さ」を無くして行動量を多くしよう

・やりたいことを全部やる!!!スタンス?

 

来年はいかに「辛い」を捨てて「中毒的に没頭し」作業量を爆速にあげて、やりたいことを全部やる。に変えていけるかかな。

メインは仕事、研究、筋トレ、美容、生活、とかになりそうだ。ほんっと生活疎かだからなんとかしたい。

うんでも、ここはしっかり練り直そう。

良い結果は、良い計画から

 

ああ、この記事書くのに1時間45分もかかってるよ、本当になにをするにも遅いなぁ。しかも、ただの自分記録。寝る時間を一番優先にするつもりが、、、、

もう。優先を忘れない!!

まぁ、ブログは続けることをメインにね。

 

明日はお部屋の片付けと、来年の計画練り終わるまで何もしないぞ!

 

これから

人様のブログを色々みていて、ブログって面白いなぁ。

と思い、ほぼ放置していたブログを再開してみました。

 

ただ、如何せんやる時間が日々の中で確保できない。

 

ただ、最近

「装丁が超キュート!」

って、装丁買いしたら、中身もよかったライフハック大全に。

「ロード時間とセーブ時間」を作りなさいっていうのがあって、なるほどって思ったので、セーブ時間の一端をブログにあげてみようかなと。

(いまはonenoteに作業のコンテクストを残していますが、、)

 

一日5分セーブ用ととか決めた方がいいのか、それとも、1つ何かができた時に載せた方がいいのか(こっちのが良さげ?)

 

続くかな、、、

 

本当は、せっかくブログなんだから、魅力的な文章、そして、有益な情報を載せられるようにしたいですが、とりあえず続けてみることを目標に

 

【アウトプット】【コード】単語の分散表現を得るためのファイル

アウトプットめんどくさがりなので、とりあえずブログを続けてみることを目標に。

 

LDAの分散表現用いた拡張版を使うために書いたプログラム。

単語と対応する分散表現(word2vec使用)を書き込んだファイルができる。

 

ほぼプログラムは独学なので色々ひどい。

作ったプログラムを、一回ポッキリでなく、ストックして後から使えるようにしたいなぁと思いつつもできていない。

自分の作った、プログラムのストック箱みたいな。パーツ置き場みたいな。gitでできそうだけどな。置き場だけ作るだけ作ろうかな。

うん、綺麗なコード書くための練習としても、やっぱりストックは作ってみたいな。

 

はてなのコード埋め込み表示(❓)やりたいけどできていない。

 

 

# coding:utf-8

import MeCab
import math

m = MeCab.Tagger("-Ochasen")
from gensim.models import word2vec
import logging
import sys
import string, codecs

#全単語をリストに入れる 
emb_word =
meisi = 0

# 学習済みモデルのロード
model = word2vec.Word2Vec.load("sample.model")


#ファイルの指定(指定できるファイル3つ ①file_emb ②fw ③fe_w )
#file_emb = 'jawiki_wakati.txt'
#file_emb = 'yahoo_textM.txt'
file_emb = "word_corpus_stopwords_meisi_test.txt"

 

def embbeding_filemake():
fe_w = codecs.open("word_vector_emb_corpus.txt","w",'utf-8')
with open (file_emb,"r") as f:
#わかち文字列の連結
while True:
line = f.readline()
words = line.strip().split()
#print words

v_word =
for word in words:
word = unicode(word, 'utf-8')
try:
vector = model.wv[word]
# f2.write(word)
# f2.write(" ")
#v_word.apeend(word)
print word
fe_w.write(word)
fe_w.write(" ")
emb_word.append(word)
for v in vector:
print v,
#これstrで書き込んでいいのか微妙だけど、、
v = str(v)
v = unicode(v, 'utf-8')
fe_w.write(v)
fe_w.write(" ")
fe_w.write("\n")
except:
import traceback
traceback.print_exc()
pass
# f2.write("\n")


if line == "":
break

def embbedingWord_filemake():
fw = codecs.open("emb_word_cprpus.txt","w",'utf-8')
for w in emb_word:
fw.write(w)
fw.write("\n")

 


if __name__ == '__main__':
embbeding_filemake()
embbedingWord_filemake()

fe_w.close()
fw.close()