【SCDV】解説

論文

https://www.aclweb.org/anthology/D17-1069

概要

SCDV: Sparse Composite Document Vectors

文書分類などのタスクにおいて、テキストのベクトル化は必須。
よくあるword2vecを用いたベクトル化は単純な単語の分散表現の足し合わせが基本だが、SCDVでは各単語のトピックや文書における影響度なども考慮していて、従来のSkipGramやBoWVよりも文書分類のタスクにおいて精度がよかった。

ポイント

syntax and semantics
文法的、意味的に単語を学習している。(ここは既存のword2vecと同様)
文書ベクトルは単語ベクトルよりも高次元であるべきだ、との主張。文書は単なる単語の集合(単語ベクトルの足し合わせ)以上の意味を持っている。
また、単語もカテゴリによって意味が異なったり、重要性が違ったりしているはず。それを考慮したものになっている。

latent topic model
潜在的なトピックモデル(のようなもの)も学習している。
カテゴリによって単語の出現頻度は異なるし、意味が変化する場合もある。
たとえば、"apple"は食べ物の話題なのかIT業界の話題なのかで意味合いが変わってくる。

sparse
処理の高速化

手法

1. 単語ベクトルを求める

2. GMMで単語ベクトルをクラスタリングする

3. 各単語ベクトルが各クラスタに属する確率を求める

4. 単語クラスタベクトルを求める

5. 単語のIDF値を求める

6. 単語トピックベクトルを求める

⊕は直和

7. 文書中の各単語のwtvを足しあわせる

8. 閾値を求めスパースにする

ざっくりとしたイメージ

単語ベクトルが各クラスタに属する確率は、その単語のトピックの確率分布のようなもの。

ベクトルの中身はこんな感じ

各カテゴリ(cluster)で重みの異なる元は同じベクトル(wv)が並んでいる。


この記事が気に入ったらサポートをしてみませんか?