【2020シーズン】筑波大学蹴球部データ班の取り組み
【これは「スポーツアナリティクス Advent Calendar 2020」の5日目の記事です】
初めまして
内田 郁真と申します。現在筑波大学蹴球部に所属しており、今年で4年目になります。
また、現在は蹴球部TOPチームのデータアナリストという肩書のもとサッカーの分析を行っており、データ班と呼ばれる分析チームのメンバーと共に公式戦の試合スタッツや、分析レポートの作成を精力的に行っています。
今回スポーツアナリティクス Advent Calendar 2020へブログを掲載させて頂く事になり、これを機にnoteを始めました(URL➡︎ https://adventar.org/calendars/4955)。
せっかく頂いた機会ですので、サッカーのデータ分析の1つのケースとして
今回は筑波大学データ班が2020シーズンで行っている取り組みについて書きます。
今後もサッカーの事、今行っている(または行いたい)研究の事、その他諸々日常生活の気付きでも発信出来ればと思います。
以下目次ですが、データ班の説明〜2020シーズンの取り組みについての書きますが、試合分析にだけ興味がある方は 3. からご確認下さい。よろしくお願いします。
1.パフォーマンスチームについて
まず簡単にデータ班の部内での立ち位置について簡単に説明します。
筑波大学蹴球部にはパフォーマンスチーム(旧:パフォーマンス局、以下『Pチーム』)と呼ばれる、小井土正亮監督直轄の組織が存在します。こちらは蹴球部に監督が就任された2015年に設立されました。
蹴球部の選手のパフォーマンス向上を目的として活動しており、現在のPチーム内には以下の8つの班が存在します。
・データ班
・アナライズ班
・ビデオエディット班
・ニュートリション班
・トレーニング班
・フィットネス班
・メンタル班
・ホペイロ班
データ班の他に、スカウティング映像の作成・分析に特化したアナライズ班や、栄養学的観点から選手をサポートするニュートリション班、サッカースパイクの修繕やスパイクに関する発信を行うホペイロ班など、それぞれ特色を活かしながら活動しています。Pチームに活動する大部分の部員は、選手を兼任しながら活動している、という事も特徴の一つです。Pチームで得た知見を実際にピッチの上で表現する。サッカーへの理解がグッと深まる可能性が詰まっています(僕は既に選手活動を引退していますが...)。
Pチームを設立された小井土監督の記事です。
ホペイロ班はTwitterも開設していますのでこちらも是非。
2.データ班について
1.のように、Pチームの中にデータ班という組織は存在しており、設立は同じく2015年です。
主にデータドリブンで蹴球部の選手のパフォーマンスを評価することが活動の内容です。
データ班は、当時蹴球部に在籍されており現在データスタジアム社に勤務されている、高橋 朋孝さんが発起人となり設立されました。
高橋さんは今年のAdvent Calendarの執筆もされています。
データ班についてはこちらでも詳しく紹介されていますので是非。
伝説の先輩スコットアトムさんの記事ですね。
データ班の目標について、
蹴球部データ班は、『大学サッカー界のデータ解析を牽引する』という目標のもと、蹴球部内のみならず、蹴球部外でも活動の幅を広げています。
データ班の目標や、ミッション・ビジョンに関してはそろそろ再定義する必要があるかな...とも感じていますが、根幹の部分は今後も変わらないでしょう。
データ班の目標
蹴球部という伝統あるサッカーチームに、サイエンスにゆかりのある筑波大学という大きなフィールド。非常に有り難い事にこれらの環境を享受させて頂いておりますので、周りの多くの知見を結集してシナジーを生み出していけると非常に幸福です。
上の画像にあるような「コントロールテストのフィードバック」であったり、蹴球部外での活動については今回の主旨では無いので、また次の機会にでも述べたいと思います。
3.データ班の取り組みについて
データ班の2020シーズンのアウトプットについて説明します。
公式戦におけるデータ班の主な作業は『自チームのレビュー分析』です。公式戦終了後に試合スタッツ+分析レポートを作成し、選手や監督に共有をする。そしてそのデータと振り返りの動画を元に、試合中に出た課題を改善し次の試合に挑む。このサイクルを重ねながら試行錯誤を繰り返しています。
スカウティングのデータ分析も少し行っているのですが、データリソース不足もあり十分に行えていないというのが現状です。
データ班のアウトプットは主に3つです。
3.1 試合スタッツ
3.2 個人スタッツ
3.3 マッチレポート
3.1 試合スタッツ
2020シーズンの試合スタッツ(得失点以外の数値は伏せています)
3.2 個人スタッツ
2020シーズンの個人スタッツ(写真は同期の渡邊 陽 選手)
2020シーズンは上記フォーマットの試合スタッツと個人スタッツを、試合後から最低でも1日後までに作成しています。
11月より班内の体制を整え、現在試合スタッツはハーフタイムと試合直後にコーチングスタッフに共有しています。
スタッツ内にはDAZNのサッカー中継でも見られるような、90分を通したシュート数やクロスの本数、ポゼッション率を始め、試合中の4局面(攻撃、守備、守➡︎攻、攻➡︎守)のパフォーマンスを少しでも詳細に評価できる為の項目も入れています。
これらのスタッツ項目は、シーズン開始前に監督やコーチングスタッフと打ち合わせを行い、項目を吟味した上で決定します(シーズン中も項目についての打ち合わせを何度か行っています)。
スタッツの定義については、OptaやWyScountの定義を基に、データ班員がスタッツを作成し易いよう少しアレンジを加えています(とは言え、スタッツの解釈が崩れてしまうようなアレンジは勿論行っていません)。
・Optaの定義
・WyScoutの定義
なお項目にあるゴール期待値(Expected Goals)に関して、プレミアリーグで算出されているような詳細な数値を取得する事はデータ収集コストが高いので、簡易的なゴール期待値を以下の論文を参考に算出しています。
また毎試合データを蓄積している為、平均値を算出し蹴球部のリーグ平均値と今節の数値を比較し評価する、のような分析も容易に行えるようにしています。
スタッツの取得方法について
OptaやWyScoutのように膨大なイベントデータを取得する企業はありますが、残念ながら学生サッカーのデータは集められていません。その為自分たちでデータ取得する必要があります。
このデータ収集コストこそ、学生スポーツにおけるデータ分析の高いハードルだと痛感しています。
これらのハードルを乗り越えるべく、2020シーズンはHudl と Hudl Codaを導入しました。
まずHudlについて。
Hudlは世界規模で展開されている映像分析ツールで、ソフト内で映像の蓄積や、見たいプレーを切り取りプレイリストを作成する事も出来ます。その為データ班員のみならず、選手や監督、コーチングスタッフも映像を確認する際に活用していて大変便利です。
Hudlのライブラリ
映像の視聴画面
データ班のHudlの活用方法ですが、主にHudl Assist というサービスを活用しています。簡単な説明をすると、Hudl上からを依頼すると24時間以内にデータ収集を行ってくれるサービスです。データ収集の外注が可能になる為、これまで人海戦術で取得してきたデータの内、半分以上の作業が削減されました。
次にHudl Codaについて
Hudl Assistがカバーしていない範囲については自分達で取得する必要があります。例えば、守備のスタッツやファストブレイクなど。また、データ収集には極力時間を割きたくない為、試合中にデータを取り終われるよう工夫が必要です。
そこでHudl Codaを活用しています。
Hudl Coda上では、取得したい項目に合わせて自由にボタン(タグ)を作成することが出来、このボタンを1回押すと1つのプレーデータが取得されます。これを90分間繰り返します(結構しんどい...)。
最終的にxml形式のファイルが手に入るので、これを集計しスタッツを作成する流れとなります。
Hudl Codaの画面
データ班員は現地にて試合を観ながら、iPadを使ってデータの収集を行っています。また今年はコロナウイルスの影響により、現地観戦では無くライブ配信で試合映像を観る機会が多くなりました。その場合は配信映像を観ながら作業を行います(ゴリゴリのパワープレー)。
現地でのデータ収集の様子
配信映像を観ながらデータ収集
こうして上記のような試合スタッツが完成します。
毎試合データ収集を確実にこなすデータ班員には頭が上がりません。
プレーを自動でラベリングするような機能を持つ製品もある為、プロの世界だとデータ収集に時間を要さないのが主流な様です。
今後、高度な物体検出モデルや姿勢推定モデルの台頭により、データ収集の自動化の恩恵は学生サッカーにも来る思いますので手動での作業は無くなるでしょう。この辺りは、今後の僕の研究テーマの1つでもあります。
3.3 マッチレポート
データ班としてはここが重要で、監督やコーチングスタッフの意思決定をサポートする為、試合後スタッツシートの数値を基にマッチレポートを作成し共有しています。
以下はレポートのほんの1例ですが、毎試合20枚前後のマッチレポートをデータ班員が作成しています(以下のレポートの数値も改変しています)。
守備に関するレポート
奪われた後の切り替え(リゲイン)に関するレポート
共有した後、次の試合まで日数が空いた場合は、実際にこのレポートの内容を監督やコーチングスタッフの前で説明します。ただ、このレポートは試合スタッツと比較し作成に日数がかかってしまう事や、今年の試合日程が過密である事もありレポートの共有のみの場合も多いですが....
得られたスタッツを時間、スペース、プレー内容と細分化しそれぞれの成否をまとめる事が、意思決定者が今回のゲームプランの検証であったり、選手へのプレー改善の指摘や次の試合への課題を見つけ出す為の有効な手段になると考えています。
一方で、数字を適切に扱えるだけの統計学的知識が無いとミスリードを起こしてしまうことも事実です。少なくとも僕はまだまだ分析に関しては知識が浅い為、レポートにおいて数値を使って事実を歪曲している可能性も大いにあります。数字を使って嘘を付かない為にも分析力を高め続ける必要がありそうです。
4. データ班のこれから
今回は2020シーズンのデータ班の取り組みについて紹介させて頂きました。現在メインで行っている事は『自チームのレビュー分析』ですが、今後データ班として『スカウティング分析』や『トラッキングデータの解析』にも着手されてくると思います。
サッカーのデータ分析について興味がある方は色々とお話が出来ればと思います。お待ちしています!
Twitter: @ikuma_uchida18
この記事が気に入ったらサポートをしてみませんか?