見出し画像

私が何を考えてサッカーでデータ分析をしているか

はじめに

はじめまして。東京大学運動会ア式蹴球部(以下ア式)、テクニカルスタッフ4年の森島周亮と申します。

こちらはア式のテクニカルユニット(分析班)が毎月サッカーについて深く掘り下げた記事をお届けしますnoteマガジンの第三号であり、今月は私が筆を執らせていただきます。

本題に入る前にまず簡単な自己紹介をさせてください。ア式テクニカルユニットは多岐にわたる活動を行っているのですが、私はその中でも少々特殊な立ち位置でデータ分析に重きをおいて活動している人間になっています。もう少し踏み込むなら、試合などから得られる生データを見やすいものへと加工する部分を担当しています。平たく言うとプログラミングですね。サッカーという定量的にとらえることが難しい現象からデータを用いて何か有用な知識を抽出するというのは非常にチャレンジングな命題だと考えており、だからこそア式のデータ分析という取り組みにはやりがいを感じています。

私自身はサッカーを深く理解をしているわけではないどこにでもいるようなただのサッカー好きの人間ですが、そんな人間がア式での活動を通してサッカーをデータで扱う際に考えていること・感じていることというものをここで共有してみたいと思います。

まとめますと、本記事ではサッカーにデータを用いる際に私が重要だと感じた「感覚の言語化」「デザイン性」というふたつの観点について記述していきます。ゲームとしてのサッカーとは直接関係しないような話も出てくるかもしれませんがよろしければ最後までお付き合いいただけると幸いです。


サッカーでのデータ分析とは?

まず最初に、すでに頻出しているデータ分析という言葉がありますがそもそもサッカーでデータを用いて分析を行うとはどういうことなのかを、すでにご存じの方も多いとは思いますが今一度個人の見解を含め簡単に説明しておきたいと思います。ちなみにア式の近年の具体的な取り組みに関してはホームページのこちらの記事にまとめられていますので興味のある方はぜひ一読してみてください。

本noteマガジンの第一号でも述べられていましたがサッカーというのは複雑で連続的なもの、平たく言うと考慮すべきことが多いゲームであるため最適解というものを導き出すことが難しいといえます。たとえば他のゲームとしてチェスや将棋、リバーシといったいわゆる二人零和有限確定完全情報ゲームにはその場その場の最善手というものが(人間がそれを導けるかどうかはわからないが)存在します。同じようにサッカーというゲームを一試合に絞って捉える場合は、各瞬間における目的(シュートを打つ、ボールを奪うなど)のための最善手を取り続けることが最適であるのは間違いないと思われますが、それを難しくしているのがサッカーの複雑性のためだと考えます。

もしくは自分のチームが試合の中で何かしらの課題、例えばビルドアップの場面で相手のプレスの第一ラインを超えることができないという課題があったとして、その原因が何なのかを特定することはおそらく難しいです。もちろん人が試合を見返すことでCB間の距離感が悪いだったりパススピードが遅いなどという原因を洗い出すことは可能だと考えますが、それはどこまでいっても主観的なものになってしまい見返した人の手腕によってその正確性は左右します。

そして、データ分析というのは上記のような問題に対して解を与えることができる手法のうちの一つとして私は捉えています。サッカーというゲームの中にある要素や現象を数値化してそれを比較・検討する。数値化することで何がどう良いのかを客観的に比較・見当ができるため最善を導くことができ、また一番効いている要因を見つけ出すことができるようになります。

つまりサッカーでデータ分析を行うとは、サッカーというゲームで勝利するために必要な要素を数値を用いて算出する・検証するということだと私は考えています。そしてその利点は、数値を用いることで従来の人の目でしか判別していなかった/できなかった事柄も客観的に、正確に捉えることができるということです。データが実際のプロの現場で活用されている事例はまだ少ないですが、例えばリバプールFCは数年前から宇宙物理学者と哲学者をデータサイエンスチームのメンバーとして招集し、そこでpitch controlという概念を用いて「非保持選手たちが保有しているエリアのうち得点可能性が高いエリア」というのをデータを用いて算出しています(くわしくはこちらのyoutubeの動画から)。これにより各瞬間におけるゴールに向かうための最善手というのを一定の基準のもと表すことができるので、それをもって選手個人の判断の質を高めたり、状況を再現させることによって戦術に組み込んだりすることができるのです。


サッカーのデータ分析における意識

ここまでサッカーでのデータ分析というものを抽象的ではありますが簡単に述べさせていただきました。このような大きなことを書きながらも私自身はまだデータ分析のほんの一端しかできていませんが、それでも今まで体験したことのない試みであるので思ったこと、感じたことというのは様々出てきました。その中で特に自分が意識を向けている部分というのをまとめて共有してみたいと思います。テーマは「感覚の言語化」と「デザイン性」です。

データ分析の「感覚の言語化」

前述した通りサッカーというのは定量的に表すことは難しく、昨今の機器の進歩によりようやく様々な要素をデータとして抽出することができるようになりました。ところで、データを持ってきたとしてそれはどのように扱えばよいのでしょうか。というのもデータを抽出できるようになったとはいってもそれらを直接課題解決などに使えるわけではないです。最初に書いた通り自分はデータの加工という部分を行っています。加工される前のデータはただの記号の羅列であり、それ単体ではほとんど意味を持たず、また目的の用途に沿っているものではありません。そのため得られる生データを加工するというプロセスが多かれ少なかれ必要になるのです。

そのデータから先述したような用途のために必要な洞察を導き出せるようにするためにデータをいろいろといじることがデータ分析の具体的な作業のうちの一つになります。ただの記号の羅列から何か価値ある知識を取り出してくる部分がデータ分析における面白さであり、難しさであります。

サブテーマの一つである「感覚の言語化」はここに現れてきます。取ってくることができるデータ群を組み合わせて妥当性のある式を構築する部分では、少なくとも初期段階では自分の感覚をもってして必要な要素を得られるデータから集めて算出する必要があります。計算しようとしている現象に対して自分が持っている感覚を明確に言語化して式にすることが分析する際に必要なプロセスになっています。

具体例を述べていきましょう。「ロングボール後のセカンドボールの回収」について調べたいという課題があったため、まずは回収率について調べようということになりました。しかしロングボールについてはパスについてのデータから距離や方向を制限して抽出することで得ることができますが、その後のセカンドボールというのは簡単には抽出することができませんでした。

このとき扱っていたデータはいわゆるイベントデータといわれるものであり、時系列順で試合中に起こったパスやシュートなどのイベントについての詳細が記述されているものでした。そしてそのイベントデータに「セカンドボール」なんていうイベントは定義されていないわけです。ではそのデータからどのようにして「セカンドボール」を抽出するか、ここが一番の課題になり、私が持つセカンドボールとは?という感覚を言語化しなければならない場面となったということです。

セカンドボールについて簡単に自分が持っている感覚としては、ロングボールで50:50になったボールをどちらかが確実に収めている状態というようなものだったので、まずはどちらかが確実に収めている状態をイベントデータから定義しようと考えました。そしてロングボール「後」のセカンドボールというからにはロングボールというイベントの後を着目することは間違いないので、そのイベントデータおよび実際の試合シーンを見てみました。そうして見てみるとロングボール後というのは様々な場合があって、例えばロングボール後誰かが簡単にポストプレーを行いそのまま確実に収めている状態に移行する場合、両チームが頭や足ではじき返し合う場合、競り合った後にスローインやファールなどでプレーが止まる場合という具合にパターンが膨大で、すべてのパターンについてセカンドボールを回収できた/できていないということを定義することは現実的には不可能という結論になりました。

もちろんロングボールのシーンを全部人の目で見てセカンドボールを回収できたか否かを記録していくことで回収率を計算できるというのはあります。ただその業務を毎試合行うとそれだけで作業時間が膨大になりスタッフのキャパシティを考えるとそれも現実的ではありません。そのためひとまず近似的にセカンドボールを定義してみることにしました。

「セカンドボールの回収」が「50:50だったボールを片方のチームが確実に収めること」であるならば、「確実に収める」ことをさらに細かく見ていく必要があります。そして私は試合シーンも参照しながらこのことを「パスを成功させている」ということに帰着させました。ロングボール後に片方のチームが安定してパスを回していればセカンドボール回収に成功しているといううように定義を行うことでイベントデータからセカンドボールについて抽出することを試みることにしました。具体的にはロングボール後のパスというイベントに着目しそのパスの成否によって回収の成否を判定するという手法を取ることで一旦の完成として、その手法で得た結果は実際の試合シーンと照らし合わせても一定の正解率とはなりました。

図1. ある試合のロングボール後のセカンドボール回収率について算出した例
折れ線グラフ上の数はロングボール数

ここで記述した手法は私個人のやり方であり真の正解ではないということを今一度述べておきます。ただ目的に対して適切なデータが存在せず、得られるデータから新たな式や定義を作り出していかなければならないのはおそらく散見される現象だと思います。それでもそれらに対して自分の感覚を基にして何かしらの定義を行い妥当性も考慮しながら近似的に値を出していくということが大事なのだと感じます。

データ分析の「デザイン性」

デザインといわれてもサッカーとはあまり結びつかないようには思われます。ここでいうデザインとは、サッカーのゲームデザインというような仕組みを設計するという広義の意味ではなく、モノを形づくるという狭義の意味で用いています。ますます結びつかないように感じますが少し深掘っていこうと思います。

ここまでデータ分析の意義のようなものを書いてきましたが、実際の現場ではデータによるアウトプットというのはあくまでも補助的な存在に過ぎず、またこれからもデータが主役というよりはあくまでも指導者たちが先頭に立ちサッカーを構築していくのだと私は考えています。

ではデータが補助的なものであり、指導者たちが指導する上での主役であるのならば、データはなるべくノイズにならない方がよいです。単なる数字を言い渡されても指導者たち、さらにはそこから得られるものを実際にピッチ上で体現する選手たちも理解できず困惑するだけかもしれません。つまり、データから得られたものを伝える際のコミュニケーションコストはなるべく抑えた方がよい。もちろんすべての工程においてコストは削減するに越したことはないのですが、データ部分が本筋ではない以上そこに余計な労力を指導者選手たちに割かせるのは無駄であるため削っていった方がよいと考えます。

そこでデザインという言葉が現れるわけです。データから得られたものはなるべく見やすく簡潔にデザインした上で伝えるべきです。無論このような考えはどの世界でもあると思います。オフィスワークで事業計画を発表する際に見込める成長性を述べるときは数字だけではなく棒グラフなども使って見やすく伝えると思います。どのような場面でも数字というのは基本的に意思決定をする際の補助的な存在であるに過ぎず、それをわかりやすいように伝えるというのは基本ではあります。だからこそサッカーという場面でもそれはおろそかにせず、プログラマー側が突き詰められる部分は突き詰めるべきなのだと私は考えています。

私が行った中で簡単な例を挙げたいと思います。以前「カウンター時に全体でスプリントできているかどうか」などといったことを評価したいという課題があって、それに対するソリューションとしてスプリント時刻を選⼿ごとに並べた図を作成する機会がありました。誰がいつ走ったかということ自体はGPSデータから既に抽出をできていたのでそれらをどうまとめて見せるかというのがポイントになっていました。

まずは簡単にプロットしたものが図2になっています。これでも見ることはできますが、肝心な部分であるどの選手がどの点なのかというのがいまいち見にくくなっています。

図2. スプリント時刻を表に落とし込んだもの①(前半部分のみ)

そこにexcelの表などで見られる行ひとつおきに色を塗ったものが図3のようになります。このようにすれば各行を独立して見れるようになり点の視認性が上がりました。

図3. スプリント時刻を表に落とし込んだもの②(前半部分のみ)

さらにこれに細かい調整を行い図として見やすくした最終成果物が図4のようになります。ここには載せていませんが、場合によっては前半部分もさらに二つの図に分けて細かく見れるようにするという手法も取っています。

図4. スプリント時刻を表に落とし込んだもの③(前半部分のみ)

こちらは簡単な例ではありますが、データを見やすくデザインしていくという部分は何となく把握していただけたかと思います。データを見て最終的な意思決定を行うのはデータを直接扱っている人間ではない以上、自分都合ではなく他人にとって本当に見やすいかどうかを意識してアウトプットを出していくことが必要なのだと感じます。


さいごに

ここまで長々とお付き合いいただきありがとうございます。全体的に私個人の見解が多めになってしまいましたが、そのような趣旨のnoteマガジンであると認識しているためここはひとつご了承ください。

サッカーにおけるデータ分析という分野はまだまだ黎明期だと思っており、行うことが一般的になるにはしばらく時間がかかるとは思います。ただその中でデータ分析を行っている端くれとして、この記事が誰かの気づきや助けに少しでもなれば幸いです。

改めて、最後までお読みいただきありがとうございました

東大ア式蹴球部テクニカルスタッフ4年 森島


この記事が気に入ったらサポートをしてみませんか?