見出し画像

ツイッターの自然言語処理で何ができるのか? 研究をまとめてみた。

ツイッター上の自然言語処理系の分析にちょっと興味があったのでどんなことができるのか、何を学んだらできるのかまとめてみました。

大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―


研究の概要

ツイッターのツイートを形態素解析してユーザーをクラスタリングし、クラスタごとにどのようにツイッターを利用しているのか分析したもの。

研究の概要としては、ツイッターで一橋大学生のアカウントを収集し、そのうちフォロワー数、フォロー数、ツイート数、RT数、ツイート時間帯、デバイス、ツイートの形態素解析を行い、K-means法でクラスタリング。こうしてクラスタ化されたユーザー層の特性を分析しています。

結果

情報発信クラスタと、お友達クラスタの間で行動に差異があるみたいです。情報発信クラスはPCからツイッターを利用する傾向があり、RT数は多く、リプライ数、相互フォロワー数は少なく、逆にお友達クラスタはスマホからツイッターを利用する傾向があり、リプライ数、相互フォロー率が高いという結果になりました。

必要な知識

これをやるためには以下のコンテンツを学習するとできそうです。

(1) 教師なし学習(k-means法)

(2) 自然言語処理


Twitter におけるコミュニケーションの社会ネットワーク分析

ツイッター上で映画の口コミを統計的に分析した論文です。どのようなツイートがRTされやすいのかをまとめています。

概要

マーケティングにおいて対面のクチコミ(Wordof-Mouth)だけでなくインターネット上でのe クチコミ(eWOM)の重要性が認識されている(濱岡, 1994; 濱岡& 里村, 2009) 。そこで重要になるのは、いかにしてクチコミを広げるかである。本研究では、ツイッターにおけるリツイート(RT)を eWOM と捉えて、それを促進するメッセージ要因、発信者の要因を考慮した分析を行う。発信者については、属性のみならず社会ネットワーク特性も考慮する。

結果

ツイートを取得して、RT数の要因を分析しています。結果がなかなか面白いですね。

メッセージの形態のうち、「http」「@」の符号は負で有意であり、これらを含むものは RT されにくくなること、逆に「RT(拡散願い)を含む」ものは実際に RT される傾向があることがわかる。マーケティング情報のうち、「値引き情報」は RT 回数への影響がないが、「キャンペーン、プレゼント情報」「試写会、トークイベント開催」「公開日、公開時間」「出演者情報」「監督、ストーリ、主題歌情報」は正の相関がある。これらの情報を提供することによって eWOM を促進できることを意味する。

また、プロフィールの属性によってもRT数が変わるらしいです。

発信しているアカウントが「映画公式アカウント」「タレント」であっても RT 回数に影響は与えない。これに対して、「映画関係者(監督など)」「タレントボット」「作家、編集者など」「映画ニュース、ポータル」からの情報はより RT される傾向がある。

画像は上記論文から引用


Twitter Sentiment Analysis in Python using Tweepy and TextBlob


概要

ツイッターで特定のキーワードに関して感情分析をしているみたい。とてもシンプル。Youtubeの動画で解説している。英語です。

結果

bitcoinに関する感情分析結果がグラフで出ています。

備考

これを時系列でみてみたら面白いと思いました。coincheck社の騒動以後と以前みたいな軸で切り分けられたらよさそうです。あと株価の予測とかもできそうですね。

使用ライブラリ

・tweepy:ツイッターAPIのPythonラッパーライブラリ

・texbBlob:英語の形態素解析ツール(?)おそらく日本語では使えない?

ちなみに日本語を使う場合はmecabが有名。Aidemyの自然言語処理講座に入っていますね。

K-meansクラスタリングで何かつくる

概要

主成分分析と、クラスタリングについての概念について説明しているのと、クラスタリングを利用して読むべきお勧めの論文を紹介してくれるアプリを作った。

何を学んだらできるのか

自然言語処理と教師なし学習

機械学習でお小遣いを稼ぐ! - 本推薦 Twitter bot の紹介 -


概要

ツイッター上で書籍についてツイートしている人に、その人が好きそうな本を自動でレコメンドしてくれるbotを作成し、そのアフィリエイトリンクで稼げないかという野望をもって開発されたbotの紹介。いろいろなAPIを使ってデータ収集し、協調フィルタリングを使って、書籍のクラスタリングを行い、似ている本を紹介するという実装になっています。

結果

Amazonのアフィリエイトで雀の涙ほど稼げたらしい。すごいです。

最後に

ということで、自然言語処理を行い、そのデータ分析によって何ができるのかについてまとめてみました。興味がある方は、ぜひ挑戦してみてください!

サポートでいただいたお金はFanzaの動画を購入するために利用されます。