sora tanaka

engineer / tokyo / https://github.com/tnksr

sora tanaka

engineer / tokyo / https://github.com/tnksr

最近の記事

【SCDV】実装

moduleimport numpy as npfrom gensim.models import word2vecfrom sklearn.mixture import GaussianMixturefrom sklearn.feature_extraction.text import TfidfVectorizer 0. corpusの作成corpus = [[w1, w2, w3], [w1, w4, w5, w2], [w3, w6, w7], ..., ]id_t

    • 【SCDV】解説

      論文https://www.aclweb.org/anthology/D17-1069 概要SCDV: Sparse Composite Document Vectors 文書分類などのタスクにおいて、テキストのベクトル化は必須。 よくあるword2vecを用いたベクトル化は単純な単語の分散表現の足し合わせが基本だが、SCDVでは各単語のトピックや文書における影響度なども考慮していて、従来のSkipGramやBoWVよりも文書分類のタスクにおいて精度がよかった。 ポイン

    【SCDV】実装