SCDVについての誤解をしていた
ここらへんからSCDVについてもろもろ書いてきましたが、今日、とっても大事なことに気が付きました。なんと、SCDVの各次元は単語ではなかったのです。いやたぶん詳しい人にとっては常識なのでしょうけど。
例えばBoW(Bag of words)やTF-IDFで文書ベクトルを表現する場合は、各単語がベクトルの次元そのものになりますよね。全文書で出てくる全単語が総次元数になる、という理解です。その流れで理解していたので、SCDVを動かしてみて数値の羅列が出てきたとき、勝手に単語だと思い込んでいました。
本当は、Word2Vecの次元数、なのです。単語ベクトルをどれぐらいの次元で表すか、です。例えば↓参照。
で、SCDVはWord2Vecの次元数をそのまま使うのではなく、単語のクラスタリングをして近くにある単語をまとめている、というところが強みなのだということです。クラスタリングするとはいっても、あるクラスタに属する確率を計算して重み付けをしているようなものなので、次元のことだけ考えるのであればWord2Vecの次元、ととらえて間違いないと思います。
特にSCDVをそのまま使うだけであれば気にする必要がない知識ですが、ちょっといじって使うのであればこれぐらいは知っておかないとのちのち困りますね。やっと理解した自分が言うのもなんですが。。
この記事が気に入ったらサポートをしてみませんか?