テキスト分析の大通り#14: コサイン類似度
前回まででナイーブベイズテキスト分類の手順について整理しましたが、今回は同じTF-IDFを利用した、文書間の類似度について整理します。コサイン類似度と呼ばれる文書と文書の類似度を計算する方法も、テキスト分析の代表的な分析の1つです。計算の詳細は割愛しますが、コサイン類似度は2つの文書間における類似度が高ければ1に近い値、類似度が低ければ0に近い値を取る指標です。まったく単語を共有しなければ0、まったく同じ単語で構成される同じ文書であれば1となります。ただし単語の出現順序は考慮