ネット上の怖い話をトピックモデルで自動分類してみた(1)
皆さんは怖い話は好きでしょうか?
ぼくは怖い話が大好きで、ネット上の有名な怖い話はだいたい既読という状態です。コトリバコとか八尺様とかクネクネとか、そういうやつです。
今回はテキスト分析の練習台として、自分がよく知っている文書集合である「ネット上の怖い話」を対象にして文書の自動分類にトライしてみました。ゆくゆくは自動生成とかもやってみたいのですが、まずは分類です。
今回トライしたのは、LDA(潜在的ディリクレ配分法)を用いたトピックモデルによる分類です。解説が目的ではない