SixTONESのYouTubeコメントを集めて分析してみた(ワードクラウド編)
身近な情報を利用したデータの可視化をやりたいと思っており、何かネタはないかと考え、毎日のように見ているYouTubeについたコメントを収集してワードクラウドの形で表現してみることにしました。
今回も個人的な興味関心&モチベ維持の観点より、筆者が推しているSixTONESを題材として扱いたいと思います。
なおSixTONESのYouTubeチャンネルの動画は全て視聴済です。
分析までにやること
YouTubeのコメントを収集する
YouTube Data APIを利用して、動画の情報を収集します。
以下の条件でコメントを抽出しました。
特定のプレイリストを指定
最新50件の動画の情報を取得(※APIの仕様上、一度の検索で取得できる上限が50件)
各動画につき、最新300件のコメントを取得
詳細な収集方法やコードについてはZennの以下の記事にまとめました。
ワードクラウドを作成する
「ワードクラウド」とは、文章内の単語の出現頻度にあわせ、文字の大きさを変えて表示した図のことです。ワードクラウドを作成することで、対象について注目されているテーマやキーワードが一目でわかります。
コメントが収集できたら、以下のステップでワードクラウドを作成していきます。
データクレンジング(HTMLタグの削除等)
分析したいコメント以外の、不要な情報を削除していきます。
クレンジングの対象としては、HTMLタグや、日本語以外の言語で書かれたコメント、絵文字などがあります。形態素解析
収集した各文章について、名詞・動詞・助詞といった形態素(意味を有する最小の単位)に分解を行います。今回は「Mecab」(https://taku910.github.io/mecab/)というライブラリを利用して形態素解析を行いました。ワードクラウドの作成
ワードクラウドを作成します。
作成にあたり、使用する品詞を「名詞」「動詞」「形容詞」に限定したり、頻出単語で分析に使用したくない単語(ストップワード)の指定を行います。
詳細な作成方法やコードなどはZennの以下の記事にまとめました。
ワードクラウドを作ってみた
楽曲動画のコメント分析
では、実際にワードクラウドを作成していきます。
まずは音楽コンテンツ(ミュージックビデオ)のコメントで作成していきたいと思います。
プレイリスト「MusicVideo」に登録された動画について、コメントを収集し分析していきます。
全26動画のワードクラウドが作成できましたが、全件は掲載できないので
特徴的だったものをピックアップしました。
バラエティ動画のコメント分析
バラエティ動画も分析していきます。
プレイリスト「Entertainment」に登録された動画について、先ほどと同じ処理を行います。
ワードクラウドを作成してみましたが、いくつか発見がありました。
特徴的なのは「北斗」「樹」の出現率が異常に高い点です。大体の動画にはメンバー6人が出演しているにも関わらず、この2人の名前が大きく表示されることが多くありました。
いくつかの例を紹介しますが、同様の出力結果は他にも見られました。
最後の「【SixTONES】念願のハリーポッタースタジオツアー東京へ!!」に至っては、松村北斗・田中樹は話題に出たのみで出演すらしていないのに、実際に出演していた京本大我・髙地優吾よりも大きく表示されてしまうという状態に・・・。
原因として思い当たることとしては、各メンバーの愛称は様々ある中で、松村北斗・田中樹は「北斗」「樹」でコメントされることが多いように見受けられました。
とはいえハリーポッター動画に関しては、京本大我・髙地優吾は「きょも」「こーち」として書かれたコメントもそれなりにあったはず。
試しに、各単語の含まれているコメントをMecabで解析してみたところ、
「きょもとハリポタ語りたい人生だったな!!!!!!!」
き キ くる 動詞-自立 カ変・クル 連用形
ょもと ょもと ょもと 名詞-一般
ハリポタ ハリポタ ハリポタ 名詞-一般
語り カタリ 語る 動詞-自立 五段・ラ行 連用形
たい タイ たい 助動詞 特殊・タイ 基本形
人生 ジンセイ 人生 名詞-一般
だっ ダッ だ 助動詞 特殊・ダ 連用タ接続
た タ た 助動詞 特殊・タ 基本形
な ナ な 助詞-終助詞
! ! ! 記号-一般
!!!!!! !!!!!! !!!!!! 名詞-サ変接続「こーちってお母さんみたい」
こ コ こ 名詞-一般 ー ー ー 名詞-一般
ちっ チッ ちる 動詞-自立 五段・ラ行 連用タ接続
て テ て 助詞-接続助詞
お母さん オカアサン お母さん 名詞-一般
みたい ミタイ みたい 名詞-非自立-形容動詞語幹
「きょも」「こーち」という単語が名詞で判定されていないことがわかりました・・・😭
ワードクラウド上に「こ ちる」という文字列も度々表示されていたのですが、「こーち」は全て「こ」+「ちる」で判定されてしまっていたためかと思われます。
特定の固有名詞を、名詞として判定するように学習させるような機能はないんですかね・・・。今後、調べてみたいと思います。
その他、特徴的だったワードクラウドを掲載していきます。
おわりに
YouTube APIを利用したデータ収集や、ライブラリを利用したワードクラウド描画まで一通り進めることができました。
実際に出力してみるとこんな結果になるんだという驚きもありましたし、知っている動画を分析したこともあって結果の違和感や痒いところを確認しながら進められ、改善点も見つけやすかったように思います。
文章の分析にはワードクラウドだけでなく、感情分析やトピック分析など色々な分析手法があるので、今後試してみたいです。
この記事が気に入ったらサポートをしてみませんか?