#12 研究結果(Tweet収集・WordCloud編)
こんにちは、昨日は夏の高校野球選手権の準々決勝を見ていました。
近江対高松商業・大阪桐蔭対下関国際は後世まで語り継がれる名勝負のように感じました。山田選手と浅野選手の対決はぜひプロでもみたいです。
今回からは、僕の実際に行っている研究の調査結果について踏み込んで説明していきます。
1.Tweet収集
以前説明したようにPythonのライブラリのTweepyを用いてツイートを収集しました。Tweepyの詳しい使い方については以下の公式サイトを参照してください。
検索条件については、以下の表1の通りです。
検索期間については、修士論文のギリギリまで伸ばしたいと考えています。
また、収集したツイートについて有意義なものを抽出することが重要です。多くの論文では、リツイートとbotによってツイートされたツイートを削除しています。
botとは定期的に一定の規則で自動でツイートするアカウントのことです。〇〇の名言ボットみたいなのが有名ですね。botもtweepyを用いて作ることができるそうなので、今度挑戦してみたいと思います。
2.WordCloud作成
以下の条件で収集したツイートについてWordCloudを作成しました。検索キーワードとして利用した単語については基本的に削除して作成しています。
この図から、僕は再生水のツイート群のトピックわけについての仮説を立てました。
「水質の関心」は水に変なものが混じっているのではないか?のような懸念
「再生水の活用例」については具体的にこういうところで再生水が使われているという紹介
「水不足問題」とは、人口が多いから水が足りないのような水の需要と供給について言及するもの
「再生水の用途」については、以前の記事で説明した通りに「洗浄用水」「飲料用」などと言及するものという認識です。以下に英語ですが具体例を掲載しておきます。当然ながらここはまだ僕が主観で分類したものなので、多少の重複があると思います。(コンサル用語()がわかる方はMECEではないということです)
次回の記事では、この仮説を定量的に検証するためにBERTopicを用いた調査結果について説明していきたいと思います。長くなってしまいましたが読んでいただきありがとうございました。このあたりから分析結果に対してさまざまな考察ができる部分があると思うので、コメント等でぜひご意見いただけると幸いです。
また#4再生水の受容度 の具体例について友人から興味深いという意見をいただいたので、論文・説明を追加しました。よろしければそちらもご確認いただけると嬉しいです。