見出し画像

#D-TW01 ツイッター分析を始めるに当たって (Before Twitter Data analysis)

(English Follows)
真面目な記事がうっかり冗談の記事に交じるのもどうかと思い、マガジンを分けてみましたが冗談の雰囲気はいなめない?ツイッターの分析ってどうやっているの?っていう質問が少しだけあったので、嬉々として書いてみようかと(許してください)。今回はその前段で以下の2点について書きました。

  1. データ分析の仕事の始まり方

  2. なぜツイッターのデータを分析しようと思ったか

データ分析の仕事の始まり方

データの分析を実務にしているとざっくり2つのスタート地点がある気がします。一つは「問い・課題」が先にある場合、そしてもう一つはデータが先にある場合。課題が先にある場合はどうやったら、それが分かるか・達成できるかを考える(設計する)のが次のステップになることが多いと思います。この部分だけでご飯3杯はいける(よだれ)
データが先にあるというケースもあります。この場合ももちろん課題があることが多いですが、実際には「これで何かできないか」みたいなことも結構あると思います。データ分析のお仕事をしている方には、このデータを売りたいんだけどという相談をうけて、データを触ってみたとなる方も多いと思います(よね?)。この場合、次のステップはデータを理解(解析)することになると思います。今回のツイッターの分析は、仕事ではありませんがデータが先にあり「課題なし」のケースですかね。ツイッターのデータが取れるらしい、何か面白いことできないかしら?みたいな。

なぜツイッターの分析をしたいと思ったか
せっかくサイドプロジェクトで始めるなら、ブログのネタとして面白そうなもの、技術の勉強になりそうなもの、お金がかからないもの(アハッ)がいなとか、時系列での変化が分かるデータが好きだなとか、思いながらデータを探して、うろうろしました。政府の公的データを見たり、鉄道の運行データとか、ぐるなびなどのデータベースなどいろいろと見てみた中で下記のポイントでツイッターのデータと、ユーチューブのデータが最終候補になりました。
1. データ量が多いほうが面白い
2. 公式のAPIがあり無料でも手に入れられるデータが有る
   *APIとはそのデータを開発者が触るための部品のようなもの
3. ガンガンデータが追加されている(時系列データ)
4. 自然言語解析を勉強してみようとおもった(やったことなかった)
そして以前の記事でも書いたのですが、そんなときにYAHOOにて東京大学の鳥海教授という方が定期的に記事を上げているのを読んで、(拳を振り上げながら)よし、ツイッターから始めてみよう!と。。。
ちなみに世の中にはいろいろなAPIがあって、データが取れたりもするのでブログの一番下に参考にさせていただいたサイトを載せておきましたので、ぜひいじってみてください。カオスの入り口へようこそ。。。

My main blog (here) is the small talk… so I separated this Data analysis series to avoid that readers have the same expectation (Joking). I got few (Very little) question about the actual Twitter analysis and data analysis as work. So my new challenge this year is to write something serious… Topics of this post are below.

  1. How does the data analysis work starts

  2. Why I chose twitter analysis as my side project

How does the data analysis work starts

Roughly speaking there are 2 way to start data analysis work. One is to start from issues, the other is to start from data. When you have issues, your first step is to design the project to solve issues. What data do you need, how do you collect them. Well I can spend whole day telling you how fun is this… 

Even if you have data in your hand first of course there should be issues, but actually if you work as analysts, you will often face "Can you find something from data?" or "Can you make money from this data set?" type of question. Then the next step is to understand the nature of data set you have.
This Twitter analysis is the latter. It seems I can extract data from Twitter and I'm wondering if I can do something interesting using the data?

Why I chose twitter analysis as my side project
I thought my private project should be something useful for me to write blog posts, to learn new skills and cost free (Smile). Also I thought I like chronological data. I explore online to find suitable data set. I looked at government stats site, traffic data of trains, data base of restaurant data base sites and so on. In the end, I chose 2 options, Twitter and YouTube Comments due to the reasons below. 
1. It is fun to have bigger data set
2. Official API is available and its free
   *API is kind of program set which you can touch the service
3. New data is uploaded regularly (Chronological)
4. Wanted to try Natural language processing (I have never tried) 
Finally as I wrote in the past article, I read articles written by professor Torikai in Yahoo articles which was very interesting. So I decided to go for Twitter first.
By the way, there are soooo many API's available for you to get various data set, I listed reference sites below for you to have a look and try. Welcome to the entrance of chaotic analytics world…

(Reference) APIを探すのに参考にさせていただいたサイト様
1) Rakuten Rapid API, https://api.rakuten.net/
2)
 ZENKIGEN, 個人でも使える!おすすめAPI一覧,  https://qiita.com/mikan3rd/items/ba4737023f08bb2ca161


この記事が気に入ったらサポートをしてみませんか?