sora tanaka

engineer / tokyo / https://github.com/tnksr

sora tanaka

engineer / tokyo / https://github.com/tnksr

記事一覧

【SCDV】実装

moduleimport numpy as npfrom gensim.models import word2vecfrom sklearn.mixture import GaussianMixturefrom sklearn.feature_extraction.text import TfidfVectorizer…

sora tanaka
5年前
1

【SCDV】解説

論文https://www.aclweb.org/anthology/D17-1069 概要SCDV: Sparse Composite Document Vectors 文書分類などのタスクにおいて、テキストのベクトル化は必須。 よくあるw…

sora tanaka
5年前

【SCDV】実装

moduleimport numpy as npfrom gensim.models import word2vecfrom sklearn.mixture import GaussianMixturefrom sklearn.feature_extraction.text import TfidfVectorizer

0. corpusの作成corpus = [[w1, w2, w3], [w

もっとみる

【SCDV】解説

論文https://www.aclweb.org/anthology/D17-1069

概要SCDV: Sparse Composite Document Vectors

文書分類などのタスクにおいて、テキストのベクトル化は必須。
よくあるword2vecを用いたベクトル化は単純な単語の分散表現の足し合わせが基本だが、SCDVでは各単語のトピックや文書における影響度なども考慮していて、従来のS

もっとみる