サッカーのデータを用いた強化学習研究の進展

2023年12月15日 19:18

この記事は【スポーツアナリティクス Advent Calendar 2023】の17日目の投稿として書きました。

執筆者は藤井慶輔です。現在は名古屋大学の教員として、スポーツなどの複雑な運動を対象とした機械学習などの情報技術について研究しています（初めての方は、こちらをご覧ください）。

今年の振り返りとして、研究活動の成果である論文の紹介が良いかと思ったのですが、複数紹介するのも話が発散しそうなので、今年発表された17本の論文の中で、X（旧Twitter）で反響のあった、深層強化学習に基づく、サッカー選手の行動を複数同時に評価する研究について紹介したいと思います。

https://twitter.com/keisuke_fj/status/1729261120345751921

強化学習とは、報酬を獲得するエージェントをモデル化して、環境（他者を含む）と相互作用しながら、状態から行動を出力する方策を学習する枠組みのことです。囲碁や将棋のようなボードゲームで人間より強くなったことが有名です。

サッカーにおける強化学習の研究というと、2020年に発表されたGoogle Reseach Football（GFootball）が画期的でした。Pythonで簡単に強化学習アルゴリズムを試せるプラットフォームを公開したことで、その後、NeurIPS, ICLR, ICMLのような機械学習のトップ国際会議でも、続々と強化学習アルゴリズムの研究が発表されています（Google Scholarで見る、GFootballを引用している論文）。ボードゲームと異なり、連続的な空間で自由に動けるエージェントが22人もいるため、11対11はまだ学習が難しそうな状況なのですが（研究という観点ではやりがいがありそうです）、3対1や4対2などの問題設定を作ったり、テレビゲームのような離散的な行動を定義することで、問題にチャレンジしやすくしたことも、人気が出ている要因かもしれません。

ただし、これまでスポーツのデータ解析を中心に研究してきた私たちは、最強の強化学習アルゴリズムを開発するというよりは、このようなエージェントモデルを使って、実際の選手の取った行動を評価できないか、と考えました。結論からいうと、今回紹介する研究は、GFootballのモデルを使用して、実際のサッカー選手の行動を世界で初めて評価した、という研究です。

これまでにも、強化学習の枠組みを用いて実際の集団スポーツの選手の動きを評価する研究はありました。例えば行動ごとに価値を算出できる関数（Q関数）を推定することで、シュートやパスなどのボールに対するアクションを評価した研究はありますが、チームを単一のエージェントとして考慮することが多く、すべての時間ステップでオフボールの選手まで評価できませんでした（詳しくは論文のRelated workを見てください）。

そこで、私たちは、下記のような行動ごとの価値（Q値）を推定するための、とても簡単な深層学習モデルを考えました。入力となる状態は、全選手やボールの位置や速度としました。離散的な行動として、GFootballを模して８方向の移動や、シュート（sh）やパス（p）などを定義して、冒頭の画像にあるように、それぞれの行動の価値（Q値）を出力するニューラルネットワークを考えました（詳しくは論文のMethodを見てください）。

結果の例としては、冒頭の図を再掲しますが、選手Aがボールを持ち、選手Bにパスするシーンで、各行動（横軸）に対する価値（Q値）を計算しました。この例では、パス（p）のQ値が最も大きい、つまりパスが最も効果的であると評価したことを示します。

（左）選手Aがボールを持ち、選手Bにパスするシーンで、（右）各行動（横軸）に対する価値（Q値）を計算した。データはデータスタジアム社より提供。

これらのQ値を個人ごとに平均して、2019年J1リーグの横浜F・マリノスの出場機会が多い選手（キーパーを除く）におけるシーズン得点との関連を調べた結果、Q値の平均とシーズン得点に負の相関がありました。得点が0点や1点の選手もいるので正確な相関を考えるのは難しいですが、FWの選手よりは、DFやMFの選手を評価する傾向にありました。これは、得点に関係するすべてのパスやオフボールの動きを考慮に入れるようなパラメータ設定を行ったことが要因にある可能性が考えられます（詳しくは論文のResultsなどを見てください）。

本手法を用いた選手の評価値（横軸）に対するシーズンゴール数の値（縦軸）。2019年J1リーグの横浜F・マリノスの出場機会が多い選手（キーパーを除く）を分析した。データはデータスタジアム社より提供。

この研究は、初めての試みとして非常に単純なパラメータ設定にて検証を行いましたが、より正確にモデル化を行うことで、より正確な評価が行える可能性が期待できます。例えば、（近いうちにお知らせしますが）ゲーム理論を用いて、選手間の戦略的相互作用を考慮し、選手のプレー精度や意思決定の質を評価するような方法に関する研究を、共同研究者とともに進めています。

また、（この研究と同時に思いついたのですが）実際のサッカー選手に似た行動を生成できるような強化学習に基づくシミュレータを作れると面白いのではないか、というように考え、その研究がICAART 2024というエージェント研究の国際会議に採択されました。内容はこちらからご覧になれますが、機会があればこちらもお話しできればと思います。

サッカーのデータを用いた強化学習研究の進展

いいなと思ったら応援しよう！