#066 勉強ログ: PythonでTwitterデータ活用
最近、個人的に勉強して学んでいることを、振返って定着させるべくログとして不定期で発信していこうと思います。私と似たようなプログラミング初心者の方が楽しく学ぶ為の気づきに寄与することを目指します。
▼今回のトライ
今回は前々からやりたいと思っていたTwitterのツイート分析です。結果として、自分が普段どんなツイートをしているかを可視化できました。
(うーん、思った通り大分偏っている。)
そこで、今回は上記を作るまでの手順について下記に備忘録的にまとめたいと思います。
①APIの解放とは
まずはツイート分析をするにあたり、切っても切りはなせないのがAPIです。
……アピ?
実際、こんなレベルの認識でした。よく耳にはするものの、あまり調べてこなかったので定義についてまず押さえます。
上記、超ザックリ言うと
『API公開(開放)=外部アプリと連携できる仕様ですよ』
ということですかね。
例えばTwitterはAPI開放していますので、データ分析をPythonやRのライブラリなどを用いて行う際、然るべき設定をすればTwitterデータを利用する連携できますよ。ということです。
これは便利!身近な情報だしTwitterならば大量データにアクセスできるので、とりあえず試すしかない!ということでいじってみました。
②データ活用までの流れ(下準備)
で、どうやればその設定が出来るか調べた結果、やるべきステップは以下の3つだということが分かりました。
STEP1.TwitterAPI開発者としての登録・申請
STEP2.アクセストークンのID発行
STEP3.出てきたデータを元にコーディング
つまり、APIなるものを活用するには上記のトークンなるID発番が必要で、それが出来さえすれば、あとは色々と出てきたデータを調理が出来るようです。
で、このSTEP1なのですが、色々と調べたのですが、なんか書いてあることと実際の登録画面で違いがあったりします。
「うまくできない、なんかへんだ…。」
と感じつつも、このちぐはぐする原因がわかりました。おかしな要員はこれ。
Twitter管理者登録フロー:2019年8月仕様変更
つまり、2019年8月以前の記事は旧バージョンの設定方法なので、読むだけ無駄です。その後も、色々調べましたが下記のサイトが一番まとまっていました。
非常によくまとまっているので、この順にやっていれば迷うことはないと思います。
ただ、申請理由記入(英語表記)は唯一「うっ…」と手がとまってしまったのですが、ダメもとで回答を日本語で書いたところ問題なくいけました。
記の記事通りに進めればSTEP2のトークン発行まではサクッといけると思います。自分の管理アカウントを作るのと、トークン発行までやれば準備完了です。
③データを実際いじってみる
上記の①②が出来ればあとは活用です。手始めに自分のTweetデータを元にテキストマイニングを実践してみました。試した手法は以下の2つ。
お試し手法1.形態素分析
お試し手法2.ワードクラウド
はい、どちらも既存のライブラリ読みだして誰かが作ったプログラムを動かすだけです。これもまた、ググればいくらでもでてきます。私が参考にしたのは以下の記事
(Pythonが素晴らしいのは、検索すれば書籍を買うことなくいくらでも記事がでるところですね。)
特に、難しいことはないのですが、自分のIDを指定して、データがひきぬけると感動はひとしおです。
(ただ、価値のないツイートしかないと愕然とします…)
これでエビデンスはできたので、色々と思いつく限り、比較するなりビジュアライズするなり、やり方は無限大です。
Twitterなどのオープンデータをいじれるようになるとやれることが増えてワクワクします。今後はwebスクレイピングやkaggleのデータなども合わせて私みたいな初心者でも楽しめる分析・考察はどんなものがあるかを考え発信します。
▼蛇足:そもそもなぜ勉強しはじめたのか?
自由研究をしはじめたの経緯は下記の通りです。
ここまでご覧頂き誠にありがとうございます!今後も誰かのためになるような小ネタや気づきを発信し続けたいと思いますので、スキでもコメントでもフォローでもリアクション頂けると死ぬほど嬉しいです🙇♂️🙇♂️