【SCDV】解説

2019年5月27日 15:09

論文

https://www.aclweb.org/anthology/D17-1069

概要

SCDV: Sparse Composite Document Vectors

文書分類などのタスクにおいて、テキストのベクトル化は必須。
よくあるword2vecを用いたベクトル化は単純な単語の分散表現の足し合わせが基本だが、SCDVでは各単語のトピックや文書における影響度なども考慮していて、従来のSkipGramやBoWVよりも文書分類のタスクにおいて精度がよかった。

ポイント

syntax and semantics
文法的、意味的に単語を学習している。（ここは既存のword2vecと同様）
文書ベクトルは単語ベクトルよりも高次元であるべきだ、との主張。文書は単なる単語の集合（単語ベクトルの足し合わせ）以上の意味を持っている。
また、単語もカテゴリによって意味が異なったり、重要性が違ったりしているはず。それを考慮したものになっている。

latent topic model
潜在的なトピックモデル（のようなもの）も学習している。
カテゴリによって単語の出現頻度は異なるし、意味が変化する場合もある。
たとえば、"apple"は食べ物の話題なのかIT業界の話題なのかで意味合いが変わってくる。

sparse
処理の高速化