見出し画像

【AI】芸能人Twitterユーザーのクラスター分析(ユーザー属性による分類)

学べること

このノートでは、Twitter API を利用して、ローラさん、有吉弘行さん、ダウンタウン松本さんなどの芸能人のツイート情報を取得し、ツイートのテキストをクラスタリングすることで、ユーザーをいくつかの種類に分類(グルーピング)する方法を学ぶことができます。

・Twitter API の基本的な使い方
・MeCab を使ったツイート(文章)の形態素解析の仕方
・TF-IDF を使った単語の数値化
・KMeansを使用したクラスタリング方法
・ローラと〇〇が同じグループに属している

このノートは以下のような業務で活用されています。

・顧客情報の分析
・ソーシャルネットワーク上の繋がりのグルーピング
・服のサイズの決定

*こちらのマガジンでは、毎月4本程度の有料ノートをお届けします。月に2本以上読むなら、月額マガジン購読の方がお得です。

概要

このノートでは、まず Twitter API を使用して、有名人・芸能人のフォロワー数ランキングトップ 20 のユーザーのツイート情報(リツートを除く)を 100 件ずつ取得します。

次に、オープンソースの形態素解析エンジンである MeCab を使用して、取得したツイートのテキストに形態素解析を行い単語に分割します。また、単語のままではクラスタリングできないため、scikit-learn を使用して TF-IDF アルゴリズムを用いて、それぞれのユーザーのツイートを数値化します。

ツイートが数値化されたので、同じく scikit-learn の KMeans クラスタリングを使用して、ユーザーごとにツイート内容をグルーピングします。最後に、グルーピングされた結果をもとにツイート内容と比較して、ユーザーがどのように分類されたのかを確認していきます。

実行環境

・Google Colaboratory

ライブラリ・ツール

・Python3(実行環境: 3.7)
・Jupyter Notebook
・Twitter API
・MeCab

事前準備

このノートでは、Twitter API を使用してユーザーのツイート情報を取得します。Twitter API を使用するためには、Twitter の Developer アカウントの登録が必要なため、下記の URL から Developer アカウントの登録と、新規アプリを作成して API キーの認証情報を発行しましょう。(認証情報の発行は Twitter 社の承認が必要なため、申請から承認されるまで数時間から数日かかるときがあります。)

ここから先は

8,145字 / 1画像

¥ 980

サポートして頂くと、こちらからもサポート返しさせて頂きます。