生物と機械の間(自然言語処理研究と徒然。DeepにLerning中)

自然言語処理研究@レベル1。「コンピュタと人間の相互理解を深める」を大きなテーマにしています。タスクは対話システム。分子生物学から興味が移動したため、生物と機械の間を探しています。生物をモデルにしたプログラムが好きです。

【論文読み・途中】Improving Topic Models with Latent Feature Word Representations

概要

 

トピック推定論文。

単語の分散表現を利用した、2つのディレクレ分布を利用したトピック推定モデルの拡張を提案。それは、小さなコーパスて学習された、ワードのトピックマッピングの向上のためである。

結果、テキスト分類(教師あり学習)とテキスト分類(教師なし学習)の両方で、結果の向上が見られた。 特に短いテキストにて(shorttext)で向上が見られた。

 

 

 

-コラム

document clustering and document classification tasksの違い

 classification・・・supervised machine learning,

教師つき学習。ラベル情報を利用

 

 clustering・・・unsupervised machine learning

教師なし学習。人間の正解データなくて良い。

 

↑逆かもしれない

 

-COMENT

(ワードのトピックマッピングか!ドキュメントじゃないのかぁ。でもラベル評価ってドキュメントやってたような。最終的には。ドキュメントクラスフィクションモデルやってるから、ドキュメントのトピック推定も出来るはず(そうであってほしい))

 

 

イントロ

 

コーパスのトピックの特徴の学習や、それぞれの文書のそれぞれの単語が、確率を推定するトピックモデルの代表的なものには、LDAがある。

・従来の文書内の単語の共起情報を利用するdocument-to-topicやtopic-to-wordを指し示す。しかし、小さく短い文書をレーニングする時、結果の分布はほとんど証拠に基づいてない可能性がある。

・それに対してSahami and Heilman (2006) and Phan et al. (2011) は、外部情報を利用したトピックの分散表現の向上が指し示されている。しかし、巨大なコーパスでは、しばしば無関係なトピックを持っている。これにより、トピックスペースを使いきってしまう。そこで、加えてPetterson et al. (2010) は、辞書情報や類義語など、単語の類似性を加えた拡張を提案している。

・小さなコーパスを補強するために、大きな拡張コーパスで学習した潜在的特徴量を利用するに関して、multinomial(多項式=Dirichlet multinomialディレクレ分布。LDA等 )とlatent feature model(潜在的特徴量モデル。w2vとかで得られるもの)にどちらか一方を利用するよりむしろ、latent feature modelとmultinomialの両方を有効活用する方法を探索したい。(着想)

・そこで、潜在的分散表現(latent feature word representations)を、二つのDirichlet multinomial(LDAとDMM)に組み込んで実験を行った。特筆して、topic-to-word Dirichlet multinomial component(それぞれの単語がどのトピックディレクレ分布から生成されているか)を、latent feature word representationsとDirichlet multinomialを組み合わせて行った。

・比較検証を行ったところ、document clustering and document classification tasksと一貫して向上が見られた。特に短い文章や、少ない文書数のものに向上が見られた。

 

 

-COMENT

Latent feature(潜在的特徴量の意味がよくわかっていない)

うーん、私的にはdocument-to-topicをやりたいんだけどな、この論文ではやってないのかな。評価では、よくなったのかな。

 

関連研究

 LDAとDMMよくわかってないので,詳しくやりたいけど、ここ本質じゃないんだよな

関連研究は下記3つ

①LDA

→LDAは、それぞれの文書(d)は、トピックθdにの確率分布から生成されることを表しているものである

それぞれのトピックzは確率分布φzワードによってモデル化される

d

θd

z

φz

W

 

②DMM

Latent feature vector models

 

所用時間:

 

 

評価

 

先に、topic to doc の評価を行うためにここを先にやる