【イベントレポート 2021.11.19】データスタジアムと考える「サッカーxデータ」の最新事情
文:八反地勇
こんにちは。フットボリスタラボメンバーの八反地です。
2021年11月19日に掲題のイベントを開催し、自分と加藤健太さん(データスタジアム)が登壇致しました。今回はその発表内容をいくつか掲載しレポートと致します。
データスタジアム株式会社・アナリスト紹介
https://www.datastadium.co.jp/analyst/members/
データスタジアムについて
2001年に設立されたデータスタジアム株式会社では野球、サッカー、ラグビー、バスケットボール、卓球など各種スポーツのデータを取得し、メディアやファン向けへの速報配信やコンテンツ提供、競技団体向けのデータ提供や分析サポートなどを行なっています。サッカーのデータ入力は2002年から始まり、現在では当たり前となった詳細なデータからの映像検索サービスをこの頃から行っておりました。
データスタジアム株式会社・事業概要
https://www.datastadium.co.jp/about/business.html
データのインプットとアウトプット
続いてのテーマは「データのインプットとアウトプット」についてです。「サッカーのデータ」といってもその中身は様々。どのようなデータ入力を行うのか、というところから始まり、その計算方法に合わせてデータは多くの形に変化します。イベントデータでいうと、データスタジアムではボールを持った選手のアクション、位置、試合時間を一つ一つ入力しデータベース化しており、これらをカウントすることで各種のプレーが起こった回数が算出され、イベントの前後データを加味してプログラムで処理することでプレーの成功可否やシュートにつながったかどうかの判断ができるようになります。
トラッキングデータといえば走行距離やスプリント数の掲載が一番多いですが、元となるデータは1フレーム(1/25秒)毎の全選手の位置座標の集合体です。これらにイベントデータを組み合わせることでより多くのデータを出力できるようになりましたが、データ量が多いことやコンピューターの発展に伴い、現在では機械学習やAIを利用したデータ指標が増えています。
データスタジアムでのイベントデータの生成は専用アプリケーションを使って人間の手で行っています。フットボリスタでもサッカーの「言語化」について多くの記事がありますが、サッカーはフィールド上で行われたアクションの捉え方が人によって違い、最も分かりやすいシュート数ですら、公式記録やデータ会社によって差異が起きてしまいます。データスタジアムはデータから映像を検索するサービスを提供しているため、試合によってアクションの定義が異なるような状況は避けなければなりません。そのため本番のデータ入力を行うまでに、サンプル映像とともに細かく説明されたマニュアルを読み込み、研修とフィードバックを繰り返して適性を見極めています。
「サッカーはミスのスポーツ」と言われますが、長い時間のかかるデータ入力作業でもミスが生まれてしまうことがあります。サービスの性質上、1つでもミスがあると品質を疑われてしまいますので、プログラムによる自動チェックと別の人間による映像確認などを行い、できる限り0にできるよう管理しています。
アウトプット面ではデータスタジアムにおけるアナリストの役割について話をしました。データを伝える場合、まず重要なのはどういった方に届けるのかという点です。ファン、サポーターは分かりやすい記録やランキングを好みます。一方で現場やより深い分析をされる方は、数値の意味を求めます。前者の場合は分かりやすいグラフィック、後者の場合はコミュニケーションスキルが必要になるでしょう。どちらにしても、データの定義を正しく理解し、発展と変化を続けているサッカーというスポーツそのものの勉強を怠らないことが重要です。また、当たり前のことですが、サッカーは人間が行っており、データは人間が作っていることを忘れないよう意識しています。
Football LAB、SPORTERIA
データスタジアムでは現在サッカーのウェブサイトを2つ運営しております。2012年に開設したFootball LABは、Jリーグのデータから独自指標を生成し公開しており、イベントではチャンスビルディングポイント、プレースタイル指標、チームスタイル指標について紹介しました。
Football LABとは
https://www.football-lab.jp/pages/about/
もう1つのSPORTERIAは、データスタジアムのデータ素材から記事を執筆できるサイトで、Jリーグの各試合のスタッツはもちろん、ゴール期待値、パスネットワークなど、1試合約100枚のデータ画像をサイト内で利用できます。コンペティションも開催しており、今後はさらなる拡大も視野に入れています。スポーツアナリティクスの発展には「分析」に触れる人口の増加とデータのオープン化が重要だと考えておりますので、ぜひSPORTERIAをご利用頂きご自身の分析やデータへのご意見を発信して頂ければと思います。
SPORTERIA
https://sporteria.jp/
トラッキングから生まれる新しいデータ
後半からは今回のイベントのメインであるトラッキングを利用したデータの紹介や、統計・機械学習・AIを利用した取り組みの紹介を行いました。
トラッキングデータの取得により分析の対象は「プレーした選手のみのデータ」から「プレーしたタイミングの全選手のデータ」へと一段階成長し、出力できるデータが倍以上に増加しました。
2014年のワールドカップ後にはパスが何人を越したかというデータ指標も話題となりました。この指標はFIFAやUEFAではBypassedとしてテクニカルレポートにも掲載されていましたが、昨今は話題に挙がらなくなり、UEFA のテクニカルレポートからも削除されました。イベントではこの指標の意義と、なぜ表舞台から消えたかについての考察を発表しました。
Technical Report 2018 FIFA World Cup
https://digitalhub.fifa.com/m/649e84967b086928/original/evdvpfdkueqrdlbbrrus-pdf.pdf
上記のテクニカルレポートを見た方は気付いたかと思いますが、ブロックの面積も新しいデータの1つであり、Football LABではチームスタイル指標の1つとして「コンパクトネス」を掲載しています。こちらの面積は選手位置からドロネー図を作り、各三角形の面積の総和から出力しています。
どのデータもそうですが、ブロック面積の大小がそのまま評価になることはありません。ハイプレスが多いチームの場合、ハーフウェイライン以上にD Fラインを上げる必要はないため面積は広くなりやすくなります。重要なのはブロックを作ったという判断ができるようになったことで、ブロックを組んだ後どのように奪ったのかor攻められたのかという点をデータで表現できる可能性が生まれたことです。
一見、中継などに使われる「平均ポジション」のデータでもコンパクトかどうかが見えそうですが、平均ポジションは罠が多い表現の1つです。こちらについては以前Football LABにて執筆しております。
Football LAB: 平均ポジションデータの見方
https://www.football-lab.jp/column/entry/716/
同様にFootball LABにて掲載しているプレッシング、裏抜けについても紹介致しました。次回作にて予定しているボロノイを利用した分析についても一部紹介させて頂きました。
Football LAB: 裏抜け
https://www.football-lab.jp/column/entry/793/
Football LAB: プレッシング
https://www.football-lab.jp/column/entry/812/
統計、機械学習、AIを活用した取り組み
ビッグデータ化に伴い統計、機械学習、AIを利用した分析、研究も世界各地で進んでいます。時に「AI」はなんでもできる魔法のように伝えられているケースも見かけますが、サッカーにおいてのAIはあくまで選手、監督の意思決定の一助となることが重要であり、意思決定を奪うようにはならないと考えています。
これらを利用したデータ指標のうち、この5年で最も有名になったのは「ゴール期待値」でしょう。Football LABでも2019年に取り上げ、同サイトおよびSPORTERIAにて展開しています。一つ一つのシュートが「何%決まりそうか」を数値化したデータで、過去に比べシュートシーンの評価に影響を与えました。
Football LAB: Jリーグのデータから作るゴール期待値
https://www.football-lab.jp/column/entry/731/
統計手法ではイロレーティングを用いた空中戦の対戦シミュレーションを紹介しました。過去数年分の空中戦対戦データから任意の2選手が競り合った場合の期待勝率を計算することができます。
SPORTERIA: J1の空中戦強さレーティング&勝率シミュレーターを作ってみた
https://sporteria.jp/blog/staff/6759367930804178945
AIを用いた取り組みは多く行っておりますが、パスコースの判定もそのうちの1つです。こちらはYoutubeチャンネルの方でもアップロードされています。
Youtube データスタジアム: パスコースのデータからオフザボールの動きを評価
https://www.youtube.com/watch?v=8uHqVJMg4wE
フィールド上の選手の配置、動作方向、スピードから守備の対応エリアをスコア化し可視化する分析も行っています。
現在サッカーのデータの分析は、起こったことの評価が土台にあり、トラッキングにより起こらなかったことを把握できるようにもなってきました。ここからは蓄積されたデータから評価・予測モデルを生成し、起こっていないこと(これから起こること)への予測とそのフィードバックが焦点となるでしょう。
以上です。長文となりましたが、ここまで読んで頂きありがとうございました。