【AI】芸能人Twitterユーザーのクラスター分析(ユーザー属性による分類)
学べること
このノートでは、Twitter API を利用して、ローラさん、有吉弘行さん、ダウンタウン松本さんなどの芸能人のツイート情報を取得し、ツイートのテキストをクラスタリングすることで、ユーザーをいくつかの種類に分類(グルーピング)する方法を学ぶことができます。
・Twitter API の基本的な使い方
・MeCab を使ったツイート(文章)の形態素解析の仕方
・TF-IDF を使った単語の数値化
・KMeansを使用したクラスタリング方法
・ローラと〇〇が同じグループに属している
このノートは以下のような業務で活用されています。
・顧客情報の分析
・ソーシャルネットワーク上の繋がりのグルーピング
・服のサイズの決定
*こちらのマガジンでは、毎月4本程度の有料ノートをお届けします。月に2本以上読むなら、月額マガジン購読の方がお得です。
概要
このノートでは、まず Twitter API を使用して、有名人・芸能人のフォロワー数ランキングトップ 20 のユーザーのツイート情報(リツートを除く)を 100 件ずつ取得します。
次に、オープンソースの形態素解析エンジンである MeCab を使用して、取得したツイートのテキストに形態素解析を行い単語に分割します。また、単語のままではクラスタリングできないため、scikit-learn を使用して TF-IDF アルゴリズムを用いて、それぞれのユーザーのツイートを数値化します。
ツイートが数値化されたので、同じく scikit-learn の KMeans クラスタリングを使用して、ユーザーごとにツイート内容をグルーピングします。最後に、グルーピングされた結果をもとにツイート内容と比較して、ユーザーがどのように分類されたのかを確認していきます。
実行環境
・Google Colaboratory
ライブラリ・ツール
・Python3(実行環境: 3.7)
・Jupyter Notebook
・Twitter API
・MeCab
事前準備
このノートでは、Twitter API を使用してユーザーのツイート情報を取得します。Twitter API を使用するためには、Twitter の Developer アカウントの登録が必要なため、下記の URL から Developer アカウントの登録と、新規アプリを作成して API キーの認証情報を発行しましょう。(認証情報の発行は Twitter 社の承認が必要なため、申請から承認されるまで数時間から数日かかるときがあります。)
ここから先は
¥ 980
サポートして頂くと、こちらからもサポート返しさせて頂きます。