見出し画像

Fifa 21とかWikiとか、データっておもしろい!

データというのはただの数字の羅列だったりするけれど、細かく見ていくととても面白い結果が得られることがあるし、ときに自分が編み上げる独自のストーリーにさえなる。公平性のあるデータは、イメージや先入観をくつがえし、世界の見え方を変えることもある。

少し前に「Fifa 21」というサッカーゲームが発売になりました。わたし自身、ゲームはやらないものの、サッカー選手のレーティングを集めた「トップ1000」というサイトを見て楽しんでました。

EA Sportsというコンピューターゲームのブランドが、国際サッカー連盟(FIFA)公認でつくっているのがこのFifaシリーズで、「Fifa 21」はその最新版ということらしい。ヨーロッパのトップレベルの選手たちも、パッケージ版を発売元から贈られたようで、互いのレーティングを比べあって自慢したり、けなしたりといった様子がYouTubeでも見られました。

プレミアリーグのトットナム・ホットスパーのサイトでは、ニュースの一部として、クラブのだれとだれがトップ100入りしたかなど公開していました。つまりゲーム会社によるレーティングとはいえ、一定の信頼度があって、選手自身もある程度認めているのだろうか、と思ったのが最初の印象。

それで「トップ1000」にはどんな選手が、どんなレートでランク入りしているのか、いろいろ見てみました。トップ1000なので、選手は全部で1000人。上位から順に並んでいて、1位は総合レート93のメッシ選手。1000位は総合レート77のトマ・フォケットというベルギーの選手。総合レートが同点の場合、どういう基準かはわからないけれど順位を一人ずつ振ってあります。たとえば総合レートが87の人は29位のモドリッチ選手から、48位のヨリス選手まで20人。

データとしては、選手名、国籍、所属チーム、ポジション、総合レートの基本情報に加えて、ペース、シュート、パス、ドリブル、ディフェンス、フィジカルのレートがあり、さらに細かくスキルムーブ、逆足、、、、加速、ダッシュ速度、ポジショニング、決定力、、、、ビジョン、クロス、、、FK精度、ショートパス、ロングパス、、、、タックル、スライディング、、、、スタミナといった項目にそれぞれ点がつけられています。

「比較」と「フィルタ」という機能があって、「比較」は3人まで選手を並べて、各種レートを比べられるようになっています。気になる選手を検索で探して、たとえば同じポジション同士で各数値を並べ、能力を比べてみるとか。

「フィルタ」の方は、「チーム」「ポジション」「国籍」の3種類があって、「チーム」は各国リーグ(ヨーロッパの各国リーグに、アメリカのメジャーリーグやトルコ、ロシア、J1リーグなど)から目的のチームを選びます。へえ、Jリーグもあるんだと思ってフィルタにかけたところ、トップ1000に入っていたのは、楽天がバルセロナから神戸に呼んで話題になったイニエスタ選手一人でした。トルコリーグはさすがに何人かいましたが、ロシアリーグはゼロでした。

「ポジション」はゴールキーパーからストライカーまで15の項目があり、ポジションごとの総合順位を見たりできます。ただここで使われているポジション記号でわからないもの、違いの意味を知らないものがあって調べてみました。(なるほどと思ったので、これについてはあとで書きます)

「国籍」というフィルタは、希望の国を選んでどんな選手がトップ1000に入っているかを見ます。ちなみに「日本」を選んでみたところ、二人の選手が入っていました。総合レート78で737位のTakashi Inui選手と同じく総合レート78で755位のHiroki Sakai選手です。なるほど、でもこれは納得いきますね。酒井宏樹選手は現在マルセーユでレギュラー、ヨーロッパ5大リーグ内でずっとプレイしています。乾選手は多少浮き沈みはあったかもしれないけれど、やはりヨーロッパの5大リーグ内で長くプレイし、現在はラ・リーガの1部のチームにいます。

他のアジアの国を見てみると、北朝鮮は0、中国は、、、なんと4人いました。ちょっとびっくり。ただ4人のうち3人は、海外出自の選手のように見えるので帰化選手でしょうか。残りの1人はウー・レイ選手という山東省出身の エスパニョール所属のST(ストライカー)でした。韓国はheung Min Son選手1人だけ。でも順位は35位とトップ100に入っています。総合レート87と高得点で、2018年にバロンドールを受賞したモドリッチ選手と同点でした。なんとなくこの結果の出方に、アジア各国のサッカー界の、あるいは社会の特徴が出ているようにも見えます。

データというのは、ある意味、作り方次第とも言えるもの。A社とB社がある事項についてデータを収集すれば、結果は違ってくることは大いにあります。どこかに「意図」があれば、当然それに沿ったデータ収集をするわけで、結果はその方向に流れます。公平さを欠くデータもあるでしょう。地球温暖化や野生のシカの増加の原因について、一般に言われていることと違う観点からつくられたデータを見たことがあります。そういうときは、どちらの(どの)データに信憑性があるか判断することになります。

データを作る際の項目のあげ方も、結果に関係してくるかもしれません。Fifa 21のところで「ポジション」について知らなかったことがあった、と書きました。それはABCで表される略称で、Fifa 21には全部で15のポジションがありました。STがstrikerというのはわかるとして、CF(センターフォワード)とSTは何が違うのかとか、LW(左ウィング)とLM(左ミッドフィルダー)はどう違うのか。細かくは書きませんが、いろいろ調べていたらポジションにおける役割の違いがあるようでした。たとえばSTは最前線に常にいてゴールを狙う人、CFは前線でゴールを狙いつつも、ときに下がってビルドアップに参加し、パスをウィングやSTに供給もするといった。試合の中の選手の働きを思い浮かべながら当てはめるとなかなか興味深いものがあります。

またこの分類法(それぞれの呼称)はヨーロッパの現代サッカーの基準による定義なのか、日本でも同じようにカテゴリー分けされているのか、そのあたりも?でした。日本では一昔前までは「ボランチ」という呼び方がありましたが、これをFifa 21の15のポジションに当てはめるならCDM(センターディフェンシブミッドフィールダー)あるいはCM(センターミッドフィルダー)になるのか。「トップ下」という表現はいまも日本の実況で多いけれど、これはどのポジションなのか。ひょっとして日本式サッカー内の独自の呼び方?

このようにデータを正しくつくる → 見るには、前提となる分類や定義がしっかりとしていないといけないことがわかります。そうでないと比較ができない。

地球温暖化やCovid-19に関するデータ収集では、いつの時代の記録から見るかとか、PCR検査数との比較など、事実関係がより精密に、正確に反映されているか見る必要があります。その点スポーツの試合結果や選手経歴は、データに意図的な詐称がないかぎり、比較的事実関係をつかみやすいと思います。

Wikipediaのスポーツの大会やチーム戦績、選手経歴はなかなか便利なツールです。日本語版は項目によってバラツキがありますが、英語版は完璧なものが多いです。テニスの4大大会などでは、決勝戦のスコアがライブでアップデートされたりもします。テレビ放送が見られないときは、Wikipediaのページを開いておけば、1ゲームごとの結果が即時にわかります。

選手について知りたいときは、Wikipediaの英語版を見ると、サッカーでもテニスでもマイナーな選手も含めて、キャリア開始からの成績表が出てきます。たとえばテニスのジョコビッチ選手なら、初めて4大大会で決勝に進んだのが2007年で20歳のとき、翌年全豪オープンで優勝しています。その後4年間のブランクがあって、2011年から2016年までは優勝と決勝進出で埋め尽くされています。しかし意外なことに、年3回の優勝はあるものの、年間グランドスラムはありません。また初優勝の年齢で見ると、ナダル選手は19歳、フェデラー選手21歳。ジョコビッチは初優勝が遅かった晩成型選手というイメージが(わたしには)あったけれど、そうでもないようです。おそらく初優勝後4年間のブランクによるイメージだと思います。10代で四大大会の優勝をする選手がたくさんいたのは、2000年以前のこと。テニス技術の変化や選手生命の長さなどから、若手が優勝するのが近年は難しくなっているのかもしれません。

日本の選手でいうと錦織選手は、2014年、24歳のとき初めて全米オープンで決勝まで進みました。それ以前には(四大大会では)準々決勝が1回あるのみ。対戦相手となったチリッチ選手も初めての決勝進出でした。ただ準決勝に進んだ経験がありました。この試合はチリッチ選手が勝ち、優勝。どちらが勝ってもおかしくない試合と思われました。しかしその後の戦績を見ると、チリッチ選手は2回、四大大会で決勝まで行っています。錦織選手の方は準決勝どまり。デビュー戦から今にいたる10年以上のデータを表組で眺めたとき、初めてわかる総合的な戦力です。

現在30歳の錦織選手の戦績は2014年をピークとする数年間かとも見えますが、ワウリンカという選手は29歳になる年に全豪オープンで初優勝(初めての決勝進出)、翌年の全仏オープン、翌々年の全米オープンで優勝しています。だから30歳を過ぎても先はあるかもしれません。ワウリンカ選手はかなりの遅咲きで、普通なら29歳の初優勝時が「最高戦績」で終わりそうですが、その後2回優勝、1回決勝進出という結果を出しています。これも長期レンジのデータで初めて見えてくる選手の力。

サッカー選手も、Wikipediaで調べると現在までのキャリア統計値がわかります。たとえばゴールを量産してきたクリスティアーノ・ロナウド選手(35歳)は2002年、17歳でポルトガルの1部スポルディングでデビューしています。その年は公式戦31試合に出て5ゴール。翌年にはイングランドのマンチェスター・ユナイテッドに移籍し、6年間プレイ。20歳になってから二桁ゴールをしています(リーグ戦は9ゴール)。その後ゴール数を増やし、24歳のときレアル・マドリーに移籍。そこからはリーグ戦だけで40ゴール以上するような爆発的な活躍を見せます。キャリアトータルでいうと公式戦854試合に出場し、641ゴール。出場試合数とゴール数だけではすべてのことはわからないものの、2002年から2020年までの18年間、ほぼフルに試合に出場し、とんでもない数のゴールを達成していることがわかります。854試合を18年間で割ると年47試合、それだけでもすごいことです。

このような長期にわたる統計を自分の目で見て、発見することがデータを見る楽しみの一つ。こうこうです、というデータをつかった記事を読むのとは違う経験になるように思います。自分の興味の観点からデータを見ていくと、意外なことに気がついたりもします。一般のスポーツニュースなどでは、受けのいいことばかりが中心になってくるので、見落とされていることや、あまり興味のもたれていないことで驚くようなことを見つけることがあるのです。

データを見ていて疑問に思ったことがあれば、それについてウェブで詳細を調べてみたりします。たとえば新型コロナウィルスのデータで、メキシコは致死率が10%とどこの国より高くなっています(日経新聞ウェブ版、10月28日時点)。感染者数も少なくはないですが、米国やブラジルほどではない。また日本の致死率が1.8%なのはいいとして、インドはそれを下まわる1.5%というのは「イメージ」や「先入観」からすると意外な気もします。

それでメキシコとインドの致死率について調べてみました。メキシコの致死率の高さの理由について、アメリカの経済誌Forbes(英語版)が、メキシコの国立疫学管理データベースをもとに記事を載せていました。それによるとメキシコでは病院が機能しておらず、大統領が自宅で療養することを勧めているのが一つ。また病院が人工呼吸器を十分に用意できず、集中的な治療が行なわれていないことが死者を増やしているとありました。

インドの致死率の低さについては、euronews.comが「何百万人もの感染・罹患に対して、なぜ致死率が低いのか」という記事(10/12)を載せていました。こちらはジョンズ・ホプキンズ大学(世界屈指の医学部を有すると言われるアメリカの大学)のデータをつかっています。理由の一つにあげられていたのが年齢で、インドはmedian ageと呼ばれる年齢の中央値が28.4歳と若く、中央値が42.3歳とかなり高いフランスと比べています(フランスは致死率が4.7%。ただ日本はさらに中央値が高く48.4歳と高齢化社会なのに1.8%の致死率)。専門家は糖尿病や高血圧にかかる率の高い高齢者が多いと致死率があがると考えているようです。またインドにコロナウィルスの影響が出始めた時期が、ヨーロッパなどより遅かったため、感染や治療に関する準備や対策、研究の期間がもてたことも理由としてあげられていました。

しかしそれとは別の理由も疑われており、インド政府が死者の記録を正確に捉えきれていないのでは、とくに70%の人が住む都市から離れた地域ではその可能性がある、ということが分析に加えられていました。

たぶんものごとはデータ一辺倒では捉えきれないのだと思います。またデータの取り方にもバラツキあり、多くの問題がありそうです。データの出処やそこがデータを取る理由や意味も合わせて考え、できれば複数の出処からのデータを比べるのがいいのでしょうね。ただここまで書いたように、データに現れていることは、factの一面でもあります。事実の一面であることを理解した上であれば、データを自分なりに解析すること、どう読むかは、なかなか深い行為なのかもしれません。

Title photo by Dragons flight 2000_Year_Temperature_Comparison (CC BY-SA 3.0)

この記事が気に入ったらサポートをしてみませんか?