見出し画像

[Vol.8] テキストマイニング

立正大学データサイエンス学部データサイエンス学科 教授 相馬亘

 テキストマイニングとは?
 データと言われて皆さんがすぐに想像するのは、数値がいっぱい並んだ表かもしれません。けれども、皆さんが日常で接するテレビ、ラジオ、ウェブ、ソーシャルメディアなどは、文章や画像で構成されています。データサイエンスの前身である統計学では、主に数値を研究の対象としてきましたが、データサイエンスでは、文章、つまりテキストを解析してその特徴を発掘することにも挑戦しています。このような研究をテキストマイニングと言います。

 クローリングとスクレイピング
 テキストを入手する方法は様々です。グーグルなどは、過去の書籍をほぼすべてスキャナーで読み込んで、そのデータベースを構築しています。ここまで大掛かりなことはグーグルだからできることですが、私たちでもウェブからなら容易にテキストデータを手に入れることができます。様々なウェブページのリンクをたどって、それらのページのコンテンツを入手することをクローリングと言います。ウェブページの多くは、htmlという形式のコードで書かれています。それを解析して、必要な箇所だけを抜き出すことをスクレイピングと言います。

 テキストマイニングことはじめ
 ウェブをクローリング&スクレイピングして、Mr.Children、乃木坂46、石川さゆり、北島三郎の歌詞を分析した結果を紹介しましょう。単純に歌詞の中に現れる名詞の出現回数を数えて可視化すると、以下のようにワードクラウドと呼ばれる図が得られます。これらの図は、ある意味では、作詞家が言葉に対して持っている頭の中の構造を可視化していることになります。ワードクラウドを比較すると、Mr.Childrenと乃木坂46は、「君」と「僕」について歌っていて、似ていることがわかります。また、石川さゆりは「あなた」について歌ってやさしい雰囲気が伝わってきます。一方、北島三郎は「男」や「夢」について歌っていて華やかな印象を受けます。

図1

図1: Mr.Children(左上)、乃木坂46(右上)、石川さゆり(左下)、北島三郎(右下)のワードクラウド


少し進んで
 Mr.Childrenと乃木坂46のワードクラウドが似ていることがわかりました。ここでは、少し進んで、歌の中で名詞が共に現れる回数を計算して、その値が大きい順に名詞をつなげて可視化することにします。これを共起ネットワークと呼び、言葉の関係が見えてきます。「君」と「僕」の間には、Mr.Childrenでは「人、中、心、日、手、I、誰(か)」がり、乃木坂46では「好き、人、恋、今、誰(か)」があり、違っていることがわかります。

画像2

図2: Mr.Children(左)、乃木坂46(右)の共起ネットワーク


 おわりに
 今回は、テキストマイニングの初歩を紹介しました。人間の考えは言葉として表現されますから、テキストマイニングは人間を知るためにとても重要な研究です。一方、言葉の裏を考えたり、言語化できないデータを取り込んだり、言語と関係ない数値データも融合した研究は、まだ途についたばかりです。皆さんの参加を期待しています。