見出し画像

フットボール統計学 クラスタリングを使用してビルドアップのパターンを識別する

GUEST BLOG: Identifying patterns in build-up play using clustering | OptaPro
03.04.19 Article by Kuba Michalczyk

Kuba Michalczyk氏は2019年OptaPro Analytics Forumでポスター発表を行い、2017/18シーズン中のプレミアリーグの各チームのビルドアップを視覚化するためにクラスタリング手法を適用した。
このゲストブログで彼は発表の背後にある方法論を、主要な調査結果の要約と共に概説する。
Kuba氏のポスターを見るにはここをクリックする。

導入

何年も前にフットボール分析のパイオニアであるCharles Reep氏は、一連のプレーが短いとより成功すると結論を出した。この誤った解釈は、イングランドを拠点とするいくつかのチームを含む、多くのチームによって採用されている同様のアプローチと一致した。

しかしこの傾向は近年逆転してきているようで、ますます多くのチームが後ろから構築しようとしている。これにはDFとGKがより優れたパススキルを持ち、ビルドアップの初期段階に深く関与することが必要である。しかし守備領域でボールを失った場合はチームが脆弱になるため、これには追加のリスクが伴う。

相手がどのように後ろから構築しようとするかの根底にあるパターンを識別することによって、指揮官は、彼らが好むパス場所とプレースタイルを示す素早い参照を入手できる。これらの発見は戦術分析をバックアップでき、その結果チームは初期段階で相手の攻撃を阻止するための戦略を考案したり、単純にチームのポジショニングによって、相手に訓練されていないまたは非効率的な方法でボールをプレーさせられる。

従ってOptaProフォーラムプロジェクトで、2017/18シーズンのプレミアリーグのイベントデータを使用して、各チームがどのように後方からのビルドアップをしたかに関する基本的なパターンを発見できるフレームワークを作成した。これは、両方の部分でクラスタ分析を採用した2段階分析だった。

クラスタ分析は教師なし、すなわち既知のラベルなしの設定で観測を分類するデータマイニングアプローチである。クラスタリングの結果として形成されたグループは、互いに類似した観測を含むべきであり、別々のグループからの観測は類似しない。

第1部  - パス開始のクラスタリング

この分析の最初の部分では、これらの観測はパス開始であり、これは次のパスとして定義された。

- ボールをピッチのかなり高い位置まで進めた(ゴールラインに対して15度未満の角度でのパスは除外)。
- ディフェンシブサード内にパス開始地点がある。
- GKまたはDFによって行われた。
- ヘディングやGKのスローによるものではない。

この定義にはいくつかの制限があることを強調しなければならない。第一に多くの場合ビルドアップ段階でセンターDFを支援する守備的MFによるパスは考慮されていない。これは、データサンプルに詳細なポジションがないためである。

考えられる解決策の1つは選手に関連するイベントの平均的な位置を試して推定することだが、そのようなアプローチは平均の欠点によって影響されるかもしれない。選手は試合中にポジションを変更することがあるので、結果として得られる平均ポジションは誤解を招く可能性がある。したがってこの分析の目的のために、すべてのMFによって行われたパスは除外された。それにも関わらず、特定のチームを分析する時、アナリストはどの選手が中盤の底としてプレーしているのかを判断し、それらを入力データセットに含めることができる。

別の制限はこの分析がシーズン全体のデータに基づいているため、チームのプレースタイルに影響を与える可能性がある指揮官の変更または選手の変更を考慮していないことである。ただしフルシーズンのデータを持つことで、分析を各チームで一貫させることができ、同等のサンプルサイズを確保できる。

後述する選択されたアルゴリズムにより、パスをクラスタに分類するために必要な類似のパスの最小数を指定することができるので、このパラメータを減らして、大幅に少ないゲームからの分析を実行できる。これにより、最近の試合に基づいた相手の分析が可能になる。

定義により、チームあたり平均1,527パスを含むパス空間座標のデータセットが得られ、これは第一段階の入力データを構成する。

データをクラスタリングアルゴリズムに変換する前に、どのように分散しているのかを開示する価値がある。ここでは主成分分析(PCA)が通常役立つ。PCAは次元削減手法のため、2次元空間内の1点でパスを表すことができ、元の座標(開始x、y座標と終了x、y座標)からの変動をできるだけ多く維持する。

マンチェスター・ユナイテッドによって行われたパス開始を提示する、PCAからの出力例を以下で見る。

図1:マンチェスター・ユナイテッドのパス開始のPCA出力。
色が明るいほど、その領域内でパスが多い。

この出力から7つの密集した領域を観察できる。中央に1つの大きな領域と6つの小さい円形の領域はすべて可変的に多数のブリッジポイントと繋がる。これらのブリッジポイントにより、特に広く知られているk平均法アルゴリズムのような最適化ベースのクラスタリング方法では、データを分離するのが難しくなる。

しかしクラスタの背後にある直感は、k平均法の仮定とは異なった。反復パターンを検出したかったので、目的はブリッジポイントやその他のノイズを無視して、密集した領域を検出することだった。そのため、DBSCANDensity-based spatial clustering of applications with noise、ノイズを含むアプリケーションの密度準拠型空間クラスタリング)アルゴリズムを採用した。ここでノイズは通常のビルドアップ設定では行われていないパス、例えば圧力下やポジション移動時などで行われていると解釈できる。チームによるが、53〜80%のパスがノイズとして分類され、重要なプレーパターンだけが残される。

※DBSCANは1996年にMartin Ester氏、Hans-Peter Kriegel氏、Jörg Sander氏、およびXiaowei Xu氏によって提案されたデータクラスタリングアルゴリズムである。これは密度準拠型クラスタリング、ノンパラメトリックアルゴリズムである。ある空間に点集合が与えられたとき、互いに密接にきっちり詰まっている点をグループにまとめ(多くの隣接点を持つ点)、低密度領域にある点(その最近接点が遠すぎる点)を外れ値とする。DBSCANは最も一般的なクラスタリングアルゴリズムの1つであり、科学文献でも最もよく引用される。
2014 年、このアルゴリズムは主要なデータマイニングカンファレンスの KDD にて、the test of time award (理論および実践にてかなりの注目を集めたアルゴリズムに与えられる賞) を受賞した。

為された別の本質的な選択は、相違測定の形だった。主な目的はプレーの方向性を確立することで、パス前進が副次的な関心事だったので、y座標にもっと重点を置くことにした。これらの選択された重みの背後にある理由は、ピッチの長さの代わりにピッチの幅に関してパス方向をもっと気にかけていたためである。

図2:プレミアリーグ各チームのMedoid(クラスタ代表)。
矢印のサイズは、クラスタ内のパス数を示す。

図2はプレミアリーグ各チームのMedoidパスを示す。Medoidはクラスタ内の他のすべてのパスに最も近いクラスタ代表である。一部のチームは中央にパスを出すのを避け、ボールをワイドな位置(AFCボーンマスなど)またはロングボール(ウェスト・ブロムウィッチ・アルビオンFC)にパス分配するのを好む一方、おそらく驚くことではないが、マンチェスター・シティは多くのショートパスを中央にプレーしているのがわかる。別の良い例はレスター・シティFCで、対角線のボールがハーフウェイラインに向かっており、これは他のチームには現れなかったパスの一種である。

ハダースフィールド・タウンFCとリヴァプールの間の類似点を見つけることもできるが、ハダースフィールドは中央へショートパスを出さず、代わりにロングボールクラスタを展開した。

図2は、ポジション別のビルドアップへの関与を分析するためにも使用できる。例えば、クリスタルパレスの左DFはおそらく右DFより彼らのビルドアッププレーにもっと関与している。ただし、そのような結論はクラスタの同質性と対抗する必要がある。

今度は注目をアーセナルに切り替える。図2を見ると、アーセナルが左サイドよりも右サイドの方からかなり頻繁に移動を開始したと結論付けるのは魅力的である。

下図は、アーセナルのクラスタの完全な構造を示しておr、クラスタのMedoidは濃い青で表示される。実際の違いはそれほど明白ではなく、左側に2つの同種のクラスタがある一方、右側にはより不均一な構造を持つクラスタが1つだけ形成されている。そのためこの図は、アーセナルの優先的なビルドアップ方向を確立しながら、クラスタ内の変動を考慮に入れるのに役立つ。

図3:アーセナルのパス開始クラスタ。
各クラスタ内のすべてのパスは、濃い青でマークされたクラスタMedoidとともにプロットされる。

第2部 - 後続アクションのモデル化

分析の後半で、私は以下の質問に答えたかった。それらが特定の開始パスクラスタで開始される時、最も頻繁なビルドアップはどのように見えるか。

この目的のために、特定のクラスタで始まったプレーの全連鎖を取り、時系列データに適した類似度と組み合わせた親和性伝播を使用してそれらをクラスタ化した。動的時間伸縮法(DTW、Dynamic Time Warping)である。この指標は、類似の形状の経路の識別を可能にする。

時系列分析で動的時間伸縮法(DTW、Dynamic Time Warping)は、速度が変わる場合がある、2つの時系列間の類似性を測定するためのアルゴリズムの1つである。たとえば、一人が他の人よりも速く歩いていたり、観察中に加速と減速があった場合でも、歩行の類似点はDTWを使用して検出できる。DTWはビデオ、オーディオ、グラフィックデータの時系列に適用されており、確かに、線形配列に変換できる任意のデータはDTWで分析できる。よく知られている用途は、異なる話速に対処するための自動音声認識である。他の用途は話者認識およびオンライン署名認識を含む。また、部分的Shape Matching法用途にも使用できる。

2つの連鎖間の距離を計算する前に、DTWは可能な限り参照に類似するように1つの連鎖を整列させようとし、そのため全体のパスが類似している限り、連鎖内の速度とパス本数の違いは無視される。

ただし1つの連鎖には、(第1部で定義されるように)いくつかのパス開始が含まれることがある。したがって連鎖の一部が2回考慮されるのを防ぐため、ボールがディフェンシブサードに戻ってきた場合、連鎖は2つの副連鎖に分割された。結果として副連鎖の多くがパス2本のやりとりに過ぎず、ボールはDFから出され、すぐに戻って、これは十分に有益な情報ではない。ただし、ロングボールの場合は、2パスの副連鎖が依然として興味深い場合がある。

このためハーフウェイラインを超えなかった全副連鎖は削除された。主な焦点は、チームがどのように攻撃するのかではなく、どのように後ろからビルドアップするかにあったので、ボールがファイナルサードに入った場合、副連鎖は刈られた。これは、この文脈では無関係の情報を使用して副連鎖を一致させることを避けるために行われた。

最後に、失敗したパス開始で構成されているすべての副連鎖はすでにステージ1に分類されているため、削除された。

図4:ステージ2からの出力例。
クラスタ1からパス開始後の上位3モードのビルドアップ。
破線はボールが運ばれることを示す。
実線はパスを示す。
色は濃い青から明るい青へ順序を示す。
幅は連鎖内の最大水平差(メートル単位)として測定される。
絶対幅は中央垂直線からのメートル単位での連鎖内の最大距離として測定される。
直接性は敵陣ゴールラインまでの距離の正味の差を、ボールが連鎖中に移動した合計距離で割ったものとして測定される。

図4は、クラスタ1からのパス開始に対するアーセナルの最も頻繁な3つのビルドアップを示す。これらの結果はサンプルサイズが小さいため、多少の塩を使用して取得する必要があるが、提示されたクラスタは時々、例えばどのパス開始がサイドの直接攻撃、または中央を通って長いビルドアッププレーを活性化する傾向があるかを知らせる。

結論

フォーラムで受けた全体的なフィードバックは、圧倒的に前向きなものだった。クラブアナリストはチーム間の違いを見つけ出し、潜在的な弱点を検出できることを特に評価した。これらの関心点を検出することは、リーグの観点ではなくチームレベルでデータを分析することに焦点を合わせることによって可能になった。

さらに発展させることができることの一つは、クラスタリングの質を正式に評価することを可能にする統計的指標である。かなりの時間をかけてさまざまなクラスタ検証手法について検討したが、フットボールの観点から見た場合、どれも適切とは思えなかった

したがって、すべてのクラスタは視覚的に検証され、クラスタが隣接する値にわたって安定するようにDBSCANパラメータが選択された。クラスタ検証統計を持つことは、人間の偏見を減らすだけでなく、プロセスの自動化にも役立つ。

アプリ

特定のチームの結果に興味がある場合、添付のShinyAppを見てほしい。

さらに洞察をTwitterで共有することを躊躇しないでほしい。

**********

Kuba Michalczyk exhibited a poster presentation at the 2019 OptaPro Analytics Forum, which applied clustering techniques to visualise each Premier League team’s build-up play during the 2017/18 season.

In this guest blog he outlines the methodology behind his presentation, together with a summary of the key findings.

Click here to view Kuba’s poster.

Introduction

ここから先は

11,363字

¥ 100

#フットボール統計学