Gensimで機械学習を行う:掲示板の分析
Gensim はオープンソースのトピック分析が行える機械学習ツールで誰でも利用することができます。通常は大規模なデータで実行するのですが、あまり大規模だとありふれた結果に成りがちなので、あえて偏ったデータで試してみます。
今回はある掲示板の500件の投稿です。掲示板のスレッド名は“コロナ禍で宅配増”です。コロナ禍での宅配が増えたことに関する投稿です。
まず最初に、掲示板に書き込まれた投稿をLDA分析(トピック数10)を行い可視化した結果を示します。
次にword2vecで機械学習を行い、t-SNEで可視化した結果を示します。
これらの図を見て何を思うか?正解はありません。人それぞれです。
LDA分析でトピックに関連したキーワードが、word2vec + t-SNEでそれらの近さが可視化されます。
結果の図を見ながら元データになった掲示板の内容を眺めなおすと着眼のポイントを掴みやすくなり論点が見えてきます。機械学習を通した目で見ると気づかなかったことを指摘してくれることがあります。機械学習は直接的な結果を求められるだけでなく、別の視点からの資料が得られるという点で利用価値は大きいものです。