G検定 トピック分析

株式会社リュディアです。今回はトピック分析についてまとめてみます。応用としては自然言語処理や画像分類に適用されていますが、今回は自然言語処理を例としてまとめていきます。トピックは日本語で主題と考えればよいと思います。ふんわりとした理解していただくことを目的としています。

ネット上では多数のニュースが公開されています。このニュースを分類することを考えてみましょう。すぐに思いつくのは、その記事の中でどのような単語が使われているかを調べることです。使われている単語から主題、つまりトピックが何かを推測するという考え方です。

ここで使われている単語の出現数のみに着目することを考えます。具体的には出現する単語の集合 BoW (Bag-of-Words) を解析しいくつかのカテゴリーに分類できそうです。この分類手法を潜在的意味解析と呼びます。英語で Latent Semantic Analysis = LSA とも言います。ただ出現回数のみで解析をするといろいろと不都合が発生しそうなことは予測できると思います。

そこで複数の単語が同時に出現する確率にも注目するのがトピック分析です。確率的生成モデルの1手法です。ここでは共起性という考え方を使います。複数の単語が互いに影響を及ぼしあいながら出現することを共起性と言います。例えば以下のキーワードが含まれる2つの記事があるとします。

記事A:金、サッカー、イレブン
記事B:金、先物、利益

Aはオリンピックのサッカーでの金メダルについて、Bは金投資についてであることが人間にはわかります。確率的にどの単語が一緒に出現するとどのような話題について言及されているかを解析する手法がトピック分析です。具体的な手法としては LDA (Latent Dirichlet Allocation) が有名です。

例えば以下のような応用が考えられます。

トピック分析を用いて文章をクラスタリング、つまり分類する場合を考えてみます。ニュースポータルでは経済、スポーツ、国際と分類していますよね。トピック分析を使えばこのような分類が可能になります。

トピック分析を用いて文書間の類似度を測定することを考えてみます。こちらもニュースポータルで関連する記事として他のニュースへのリンクがありますね。トピック分析で文書間の類似度を考えれば可能になります。

今回はトピック分析についてふわっとまとめてみました。

では、ごきげんよう。

この記事が気に入ったらサポートをしてみませんか?