見出し画像

【計量テキスト分析】#1 概要

こんにちは、ぽむぽむです。このシリーズでは LSE で履修したモジュールの中で1番印象に残っている Quantitative Text Analysis(計量テキスト分析)について記録していきます。

計量テキスト分析とは、テキストデータを量的なデータ(数値やベクトルなど)に変換して分析するものです。

例えば、こちらのトランプ氏のツイート。

こちらのツイート(document)は18単語からなりますが、"to" が2回出てきているので、出てくる単語の種類は17個ということになります。そして、その単語一つ一つをベクトルの要素としてみることで、ツイートの分析がベクトルの分析へと変わり、計量的な分析が可能となります。

ちなみに、このような政治家のツイートは思想を分析する際によく用いられます。

基本用語

  • corpus:分析対象となるテキストデータの集まり。

  • document:corpusを構成する1データ。ツイートの場合は1ツイート。

  • types:被りなしの単語。先ほどの例で言う17種類の単語たち。

  • tokens:単語

  • stems:単語から接尾辞を除いたもの。例えば "winning" は "win" になる。

  • lemmas:その単語の元となる単語。例えば "winner" は "win" になる。(stem の場合は "winner" のまま)

  • stop words:分析の対象から外される単語。"a" や "the"、"of" などは多くの document で頻出する単語だが、分析において意味を持たず、除外されることが多い。

  • feature:要素。先ほどの例で言う、ベクトルの一要素にあたるもの。

  • document-feature matrix(DFM):documentsを行、featuresを列にとった行列

基本的なアプローチ(Bag of words)

  1. Corpus と document を定義

  2. テキストの下準備(stemming や stop words の除外を施し、単語の被りを無くす など)

  3. Features を定義

  4. DFM を作成

  5. 行列を用いて計量的なあるいは統計的な分析を行う

  6. 分析結果を解釈

これは直感的には非常に分かりやすいアプローチなのですが、語句に慣れていないと分かりづらいと思いますので、例を用いて説明します。

例えば、以下のような二つのテキストがあったとします。
Text 1:A corpus is a set of documents.
Text 2:This is the second document in the corpus.

Text 1 を stem すると a, corpus, is, set, of, document の 6種類の単語の集まりになります。ここから stop words の a, is, of を除くと「corpus, set, document」が Text 1 の features になります。Text 2 を stem すると this, is, the, second, document, in, corpus の 7種類の単語の集まりになります。ここから stop words の  this, is, the, in を除くと「second, document, corpus 」が Text 1 の features になります。

次に、DFM を作成します。行が document、列が feature ですので、

$$
\begin{array}{lcccc} \hline
document & corpus & set & document & second \\ \hline
text 1 & 1 & 1 & 1 & 0 \\
text2 & 1 & 0 & 1 & 1 \\ \hline
\end{array}
$$

となります。こう見ると、定量的な分析を用いずとも、text 1 と text 2 の違いが明瞭となり、特に text 2 が2番目(second)であると言う意味合いがより強調されたことが分かると思います。

実際には document や feature の数が膨大なテキストデータを分析していくことになるので、計量的・統計的な分析が必要になってきます。様々な手法がありますので、ぼちぼち記録していきたいと思います。


この記事が気に入ったらサポートをしてみませんか?