初歩から始めるテキストアナリティクス

 こんにちは、情報メディア学科の青山です。

 今年から三年生になるということで、ゼミにも所属してこれからの生活がより大学生らしくなる……! とワクワクしたは良いものの、ゼミで扱う内容は「データの可視化」ということで、実はあまり分かっていません。

 ということで、少しずつ勉強をしてみることに。そこで気になったのが、タイトルにもある「テキストアナリティクス」というもの。今回はこちらについてまとめることにしました。

テキストアナリティクスって?

 こちらについて説明する前に、まずはデータの可視化について説明したいと思います。そもそも、データ可視化とは

データグラフィック表現を扱う学際分野であり、データ視覚化や外来語でデータビジュアライゼーションとも呼ばれる。これは特にデータが膨大な場合(例えば時系列など)に効率的な伝達手段である。

Wikipedia「データ可視化」|https://ja.wikipedia.org/wiki/データ可視化|2023年3月15日アクセス

 とされています。今回扱う内容はそのうちの一つで、与えられた文章について、相関や単語の出現傾向等を分析し、それを活用するための技術です。似たような言葉で「テキストマイニング」というものがありますが、こちらは文章の分析方法であり、それらの総称が「テキストアナリティクス」という感じです。

 文章を分析する際、文章を細かく区切っていくと、その最小単位は単語になることが多いです。対象となるデータにおいてその単語がどれだけ出現しているか、所謂出現頻度を見ることで、何が重要なのか、何が言いたいのかが分かることがあります。

 ここで大切なのが、分析する対象は名詞や動詞、形容詞等に留めておく、ということです。いったい何故でしょうか?

 文章を書き、それを細かく区切っていくと、その中で一番多くなるのは「の」や「に」といった助詞になるでしょう。しかし、それらが重要であることは極めて少ないです。なので、こういった分析をする際に必要無いとされた語は、先に取り除く必要があります。これを不要語、またはストップワードと言います。

 これを踏まえた上でいざ分析! と行きたいのですが、その方法を説明すると段々難しい内容になってしまい、タイトルからかけ離れてしまうのでここでは省略したいと思います。

可視化の例

 さて、分析をして色んな単語がいっぱい出てきました。と言っても、出力結果は「リンゴ」が50回出てきて、「食べる」が32回出てきて……といったテキストデータが殆どです。短い文章であればそれでいいかもしれませんが、文章が長く、それも複数となってしまうとさすがに大変です。そこで可視化の出番! というわけですね。以下の画像をご覧ください。

 これは、昔話童話童謡の王国というサイトに公開されていた「桃太郎」のお話を可視化したものになります。

 データを可視化する手段として有名なのが、このワードクラウドと呼ばれるものです。ワードクラウドとは、単語の出現頻度を利用し、色や大きさを変えることで可視化するものを指します。

 ということでもう一度この画像を見てみましょう。中央で大きく表示されているのは桃太郎という文字です。つまり、この単語が物語で一番重要になるということです。主人公なので当然ですね。また、その周りには、鬼やおばあさん、きびだんごといった単語が並んでいます。これらも桃太郎についで重要な意味を持つことを表しています。

 このように、データの可視化を用いることで、分かりにくかった分析結果を簡単に扱うことが可能になるというわけです。今回は昔話を分析として用いてみましたが、実際の活用事例としては、サイトのアクセスログを調べ、それをワードクラウドを用いて可視化することで、そのサイトを訪れたユーザーがどういったことに興味を持っているのか、などを調べることができます。

最後に

 いかがでしたか? データアナリティクスに少しでも興味を持ってもらえたでしょうか。今回ワードクラウドを出力する方法として、以下のサイトを用いました。

 自身の好きな文章を打ち込むことで、簡単にワードクラウドを生成してくれます。また、最初から助詞を不要語としてくれているので、余計なものも表示されずに使いやすいサイトとなっております。ぜひ使ってみてください。

 データアナリティクスの世界はまだまだ奥深く、今回説明したのは初歩の初歩にすぎません。これから勉強を重ね、より詳しくなっていきたいと思っています。最後まで読んでいただきありがとうございました!

 今回の執筆にあたり、以下の書籍を参考にしました。


この記事が気に入ったらサポートをしてみませんか?