TF-IDF

2024年6月30日 10:13

TF-IDFとは？

TF-IDF（Term Frequency-Inverse Document Frequency）は、情報検索やテキストマイニングでよく使用される統計的手法で、文書内の単語の重要性を評価するためのものです。TF-IDFは、特定の単語が文書内でどれだけ重要かを示します。

この記事ではPythonでTF-IDFを実践してみます。
環境はGoogle Corabです。

サンプルの文章として下記の文章を用意します。

documents = [
    "The cat in the hat",
    "The quick brown fox",
    "The cat is on the mat",
    "The quick brown fox jumps over the lazy dog"
]

TfidfVectorizerを利用して、サンプル文章のTF-IDFを計算します。

vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(documents)
feature_names = vectorizer.get_feature_names_out()

サンプル文章の各単語の重要度を視覚的に確認してみます。

import pandas as pd

df = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names)

df