Jリーグ入場者分析する為のデータの整理手順|分析データ付き
分析用のデータの準備
統計の勉強をするアウトプットとして、Jリーグの入場者分析を始めてみました。勉強を進める中で、ジェフ千葉の入場者を増やすための「何か」を見つけられたら良いかなと思っています。
これまでに、代表値の分析をしてきました。今後は、その他の項目も利用して、分析を進めていきたいと思っています。
ところで、データ分析をするためには「対象となるデータの準備」が必要になります。
分析に必要な元データはJリーグの公式サイトから取得できますが、これを分析用に加工するのは、それなりの手間がかかります。
今回、過去11年間(2010年~2020年)のJ1~J3の10,075試合のデータを分析する為に必要なデータをExcelで準備しました。
【追記】
新たに2021年~2023年の試合データを追加しました。
データ数も大きく増えて13,348試合分のデータになっています。
Excelで用意することで「R」など分析ツールでも利用できますし、EピボットテーブルなどExcelの中の分析も想定をしています。
データの取得方法について
ベースとなる情報は、Jリーグの公式サイト(J.League Data Site)からの情報となります。
ただし、1回の検索につき1,500件までのデータしか取得できないため、年度単位にデータを抽出しました。
また、検索して頂くとわかるのですが、この検索結果では、天候・温度・湿度の情報を取得することが出来ません。
入場者分析をする上で、この要素を取得することは必須と考えました。
が、この情報を取得するには、各試合の「スコア」部分をクリックする必要があります。
約10,074回クリックするのは、大変なのでRPAという自動化ツールを利用してデータを取得しています。(動かし続けて約3日かかりました…)
まずは、ここまでで必要な情報がそろいました。
データの加工について
分析する上で、取得したデータをそのまま利用することが難しい為、いくつかの加工を施しています。
1.試合日の日付と曜日の分離
取得したデータは、日付と曜日が一体となっていました。 例)08/29(土)
そのため、日付と曜日を分ける処理をしています。
2.祝日区分の追加
平日夜なのか、休日なのかでも入場者数に影響を与えることが想定される
為、祝日区分を作りました。「0」を平日、「1」を休日としています。
休日には、土曜日・日曜日・祝日が含まれます。
3.時間区分の追加
キックオフ時刻がそれぞれで微妙に変わります。(13:03や13:02など)
こちらも、入場者数に影響を与える項目として想定されますが、時間が異
なると分析が難しいため、時間区分を追加しました。
1:昼間の試合 → 12:00~15:37の間にキックオフした試合
2:夕方の試合 → 16:00~17:35の間にキックオフした試合
3:夜の試合 → 17:59~20:04の間にキックオフした試合
4.天気簡略版の追加
公式結果は、天気が細かく表示されているため、そのまま利用するとデー
タの塊がどうしても小さくなってしまいます。そこで、天気の項目とは別
に天気簡略版の項目を追加しました。
5.スコア列の追加
元データは、スコアとして「2-3」の用に表示されていますが、これでは
どちらが何点取ったのか判断が難しいので、ホーム得点とアウェイ得点を
追加しました。
6.ホーム・アウェイの勝ち点の追加
どちらのチームが勝ったのか、引き分けたのかを明確にする為、この試合
で獲得した勝ち点を追加しました。
7.得失点の追加
この試合での得失点をホームチームとアウェイチームで追加しました。
4~6は、将来的には直近の結果による影響などを調査することを想定して追加しています。
結果として、各試合情報として、以下のような項目を含んでいます。
分析について
Excelデータにしていますので、Excel機能のフィルターやピボットテールの利用が可能です。また、Excelの統計分析ツールが標準で入っていますので、そちらを利用することで、回帰分析なんかも行えます。
もちろん、Rにデータを取り込んで分析もできます。
このデータで分析してみたいよって思われた方は、記事の購入をお願い致します。有料エリアにファイルを添付しています。
ここから先は
¥ 700
この記事が気に入ったらチップで応援してみませんか?