【計量テキスト分析】#1 概要

2024年7月19日 21:29

こんにちは、ぽむぽむです。このシリーズでは LSE で履修したモジュールの中で1番印象に残っている Quantitative Text Analysis（計量テキスト分析）について記録していきます。

計量テキスト分析とは、テキストデータを量的なデータ（数値やベクトルなど）に変換して分析するものです。

例えば、こちらのトランプ氏のツイート。

To all of those who have asked, I will not be going to the Inauguration on January 20th.
— Donald J. Trump (@realDonaldTrump) January 8, 2021

こちらのツイート（document）は18単語からなりますが、"to" が2回出てきているので、出てくる単語の種類は17個ということになります。そして、その単語一つ一つをベクトルの要素としてみることで、ツイートの分析がベクトルの分析へと変わり、計量的な分析が可能となります。

ちなみに、このような政治家のツイートは思想を分析する際によく用いられます。

基本用語

corpus：分析対象となるテキストデータの集まり。
document：corpusを構成する1データ。ツイートの場合は1ツイート。
types：被りなしの単語。先ほどの例で言う17種類の単語たち。
tokens：単語
stems：単語から接尾辞を除いたもの。例えば "winning" は "win" になる。
lemmas：その単語の元となる単語。例えば "winner" は "win" になる。（stem の場合は "winner" のまま）
stop words：分析の対象から外される単語。"a" や "the"、"of" などは多くの document で頻出する単語だが、分析において意味を持たず、除外されることが多い。
feature：要素。先ほどの例で言う、ベクトルの一要素にあたるもの。
document-feature matrix（DFM）：documentsを行、featuresを列にとった行列

基本的なアプローチ（Bag of words）

Corpus と document を定義
テキストの下準備（stemming や stop words の除外を施し、単語の被りを無くすなど）
Features を定義
DFM を作成
行列を用いて計量的なあるいは統計的な分析を行う
分析結果を解釈

これは直感的には非常に分かりやすいアプローチなのですが、語句に慣れていないと分かりづらいと思いますので、例を用いて説明します。

例えば、以下のような二つのテキストがあったとします。
Text 1：A corpus is a set of documents.
Text 2：This is the second document in the corpus.

Text 1 を stem すると a, corpus, is, set, of, document の 6種類の単語の集まりになります。ここから stop words の a, is, of を除くと「corpus, set, document」が Text 1 の features になります。Text 2 を stem すると this, is, the, second, document, in, corpus の 7種類の単語の集まりになります。ここから stop words の this, is, the, in を除くと「second, document, corpus 」が Text 1 の features になります。

次に、DFM を作成します。行が document、列が feature ですので、

$$
\begin{array}{lcccc} \hline
document & corpus & set & document & second \\ \hline
text 1 & 1 & 1 & 1 & 0 \\
text2 & 1 & 0 & 1 & 1 \\ \hline
\end{array}
$$

となります。こう見ると、定量的な分析を用いずとも、text 1 と text 2 の違いが明瞭となり、特に text 2 が2番目（second）であると言う意味合いがより強調されたことが分かると思います。

実際には document や feature の数が膨大なテキストデータを分析していくことになるので、計量的・統計的な分析が必要になってきます。様々な手法がありますので、ぼちぼち記録していきたいと思います。

この記事が気に入ったらサポートをしてみませんか？