見出し画像

#7Tweet収集の方法と先行研究について

こんばんは、最近[Alexandros]の閃光という曲にとてもハマっているのですがカラオケで歌ったら全く歌えませんでした笑
駅伝のmad動画で知ったので、是非mad動画をみてみてください。
1:31あたりの青山学院大・岸本選手が映っているシーンで、
怪我で選手生命の危機も「あとは上がるだけ」って言っているシーンがめちゃくちゃ好きです。駅伝について語りたいこともたくさんあるのですが、またの機会にしておきます笑笑


雑談はこのくらいにして今回は
①どのような方法でTweetを集めているか?
②Tweetをデータ元にした自然言語処理の先行研究にはどのようなものがあるか?
について説明しようと思います。

①どのような方法でTweetを集めているか?
PythonのTweepyライブラリを用いることで収集を行なっています。
プログラミング言語について馴染みのない方にもわかるように、プログラミング言語の説明からしようと思います。プログラミング言語とは、人間がコンピューターに伝えたいことがあるときに用いられるコンピューター専用の言語のことで、Pythonはそのひとつです。(他にはRやJavaやC言語といった例がありそれぞれに特徴があります。)各言語によって得意な分野がそれぞれ存在します。

TweepyはTwitterのAPI(Application Programming Interface)を簡単に操作するための機能をもつライブラリです。APIとはソフトウェアやアプリケーションなどの一部を外部に向けて公開することにより、第三者が開発したソフトウェアと機能を共有できるようにしてくれるものです。この機能によってTweetを収集することができます。具体的に方法については以下を参照ください。
get_tweet_tweepy

この方法では、以前述べたようにTweetの内容だけではなく「ツイート者のフォロワー数」「いいねの数」「ツイート時刻」等の情報を紐付けて集めることができる点と大量のツイートを短い時間で集められる点が非常に優秀です。

②ツイートを用いた先行研究にはどのようなものがあるか?
「ある社会政策と、それに対する反応」という研究でTwitterを用いた研究がここ数年で各分野で行われています。
とりわけ最近ホットな話題は「COVID-19に対する政策と、市民感情の関係性の分析」というお題で、Google Scholar(論文検索サイト)で調べると6~7割Twitterを用いた論文はこのテーマです。

今回は"Global Sentiments Surrounding the COVID-19 Pandemic on Twitter: Analysis of Twitter Trends"を引用して、実際の研究例を説明しようと思います。

COVID-19のパンデミックにおける恐怖、怒り、悲しみ、喜びの4つの感情とその背景にある語りの世界的な傾向を明らかにすることを目的とした研究です。

その手段として、パンデミック初期のツイートを収集して、ツイートを怒り・恐怖・悲しみ・喜びの4感情に分類しています。下の図について縦軸がその日のうちの該当感情の割合、横軸が時間の変化です。

図1 パンデミック直後の感情の推移

この結果から、COVID-19のパンデミック時に負の感情が支配的であることが明らかになっています。この前例のない危機に対して国民の精神的な健康を維持するための行動が必要であるとこの論文で主張されています。

また、怒りの感情のツイートを集めたWordCloudについては以下の図2のようになっています。怒りのツイートに関しては"racist"など人種差別的要素と関係したツイートや、"flights borders""cancel Flight"などの渡航制限に言及したものなどが挙げられます。左が1/30~2/1の初期・右が4/6~9の少しあとなのですが、右の方が直接的な侮辱発言が目立ちます。

図2 怒りの感情についてのWordCloud

COVID-19についての論文は数多く存在するので、Tweetによる調査に興味を持った方はぜひご確認いただけると面白いと思います。
今回はここまでとし、次回 Topic ModelingやBERTの説明をしたいと思います。
長文でしたが、読んでいただきありがとうございました。

("Python"や"プログラミング言語"といったプログラミング関係用語を説明する時に、論文をうまく引用できないのですがどう解決すればいいか困っています。ここではネット記事で誤魔化していますが、何か策があればコメントなどでご教示いただけると幸いです。)

出典
https://valed.press/programming-learning/what-is-tweepy/

what-is-api-16084

get_tweet_tweepy


https://publichealth.jmir.org/2020/2/e19447/