見出し画像

データの更新 セリエA 2000~2009年の記録の追加

 先日、セリエAの2010/2011シーズンから2021/2022シーズンまでのプレーオフ等のデータを追加し、上記の期間のデータが揃うことになりました。

 今回は、ここから遡って2000/2001シーズンから2009/2010シーズンまでのレギュラーシーズン及びプレーオフ等のデータを追加しました。データは以下のリンクからダウンロードして利用可能です。

 このデータですが、私がやっているように分析に使ってもらったり、数値計算や統計解析、図表の作成の練習に用いてもらっても構いません。ダウンロードの際に連絡の必要もありません。ご質問などあれば受け付けます。

 ただ、注意事項として、集計にはミスの内容に気を付けていますが、全く無いとは言い切れません。ご使用の際にはこうしたミスには自己責任ということでお願いします。また、データの商用もご遠慮ください。

 今回はこのデータの仕様についていくつか解説していきたいと思います。

取り扱いデータ

 今回追加したのは、2000/2001シーズンから2021/2022シーズンまでの以下のカテゴリの試合になります。

・レギュラーシーズン(Regular_Season)
・プレーオフ(Play_Off)
・イタリア杯(Coppa_Italia)
・イタリアスーパー杯(SuperCoppa)

 この他にもシーズンによって諸々呼称が変わっていますが、基本的には公開されている試合の記録を全て集計しています。ただ、女子ではオールスターゲームの記録もありましたが除きました。

 今回追加したデータは2000/2001シーズンから2009/2010シーズンまでですが、注意していただきたいのが、男子2部(A2)のデータは2008/2009シーズン以降に限るという点です。

 これは、2007/2008シーズン以前の帳票は下図のように各選手が獲得した得点の情報しかないためです。

画像2

 シーズンによってはイタリア杯で1、2試合ほど記録のある場合もあるのですが、データとしては少なすぎるので集計はしませんでした。

 女子に至っては、2009/2010シーズンまでこの形式の記録であるため、今回追加したのは女子1部(A1)のみのデータになります。

ファイルの構成

 GitHubにアップしているファイルは以下のようになっています。

画像1

 画像にあるのはファイルの一部です。

 1つのファイルの要領の上限が25MBなので、データが増えるとファイルの数も増えてしまうのですがご了承ください。以下、各ファイルの内容を説明します。

gamelog:1試合ごとのチームデータ

・lega_gamelog_2000-2021.csv (男子)
・lega_f_gamelog_2000-2021.csv (女子)

 この2つのファイルは、チームの試合ごとの記録になります。以下の図はある試合の記録の例ですが、図中の赤線で示した個人の記録を合計した値をチームの記録として集計しています。

画像3

playerlog:1試合ごとの個人のデータ

 以下のファイルは、個人の試合ごとの記録になります。以下の図に示した個人の成績を1人ずつ集計したものになります。

画像4

 チームのデータは、1試合で2チーム分の2行で済むのに対し、登録選手全員の記録を集計するためplayerlogのデータは容量が大きくなってしまうので小分けにしています。例えば、男子1部(A1)は以下の3つのファイルに分けています。

・lega_playerlog_a1_2000-2009.csv
・lega_playerlog_a1_2010-2019.csv
・lega_playerlog_a1_2020-2021.csv

 3つ目は期間としては短いですが、2022/2023シーズン以降を追記していく予定です。上の2つはミスが見つからない限りはこれで決定版としたいと考えています。

 男子2部(A2)も小分けにしていますが、期間が少し異なります。

・lega_playerlog_a2_2008-2017.csv
・lega_playerlog_a2_2018-2021.csv

 2008/2009シーズンからデータがあることと、容量の制限を考慮してこのような分け方となっています。

 男子3部(A3)は設立後間もないのでファイルは1つです。今後データが増えてきたら小分けにしていく予定です。

・lega_playerlog_a3_2019-2021.csv

 女子のデータは、1部(A1)が3つ、2部(A2)という構成です。

lega_f_playerlog_a1_2000-2009.csv
lega_f_playerlog_a1_2010-2019.csv
lega_f_playerlog_a1_2020-2021.csv

lega_f_playerlog_a2_2010-2019.csv
lega_f_playerlog_a2_2020-2021.csv

playerlist:選手リスト

 最後に、各チームの登録選手のリストのファイルです。

・Lega_playerlist_2000-2021.csv
・Lega_f_playerlist_2000-2021.csv

 2000/2001シーズンから2021/2022シーズンまで、2部(A2)の記録の無い期間も選手のリストだけは揃えるようにしています。

仕様変更

 今回の集計にあたって、いくつか仕様を変更したので、その報告をしておきます。

 1点目は試合の整理方法です。2000年代のセリエAは試合データの集計分類がまだ確立しておらず、下図のように試合ごとの通し番号がついていません。

画像6

 これではデータを並び替えたときに、元も対戦相手とのセットが崩れて元に戻らなくなります。そこで、

 2000/2001シーズン(Season)、A1(Division)の、レギュラーシーズン(Championship)1stラウンド(Phase)、第1節(Day)の何試合目という方法で試合を整理しました。

 この何試合目(Game)という部分は元のデータには無い物で、今回整理のために追加したものです。以下のデータの例ではGameという変数で表しています。

画像5

 図はデータをエクセルで開いたもの

 Gameの数は、サイト上で試合が上から並んでいた順なので特に意味はありません。あくまで識別が目的です。

 2点目として、ブロックのデータについて、2000年代の帳票にはブロック(MURO)の項に“INV”というデータがありますので、新しいデータでもこの項を追加しています。2009/2010シーズン以降には無くなるデータなので、以降の時代は空欄としています。

画像7

 ところで、この“INV”というデータは何なのでしょうか?“Invasione”の略称とのことですが、英語にすれば“Invasion”で侵犯という意味です。

 “invasione muro pallavolo”でGooglle先生にお伺いを立てて見ると、


I giocatori difensori non possono eseguire un muro. Se un giocatore mette il piede nel campo avversario, oltrepassando completamente la linea centrale commette fallo (invasione).

Defending players cannot perform a wall. If a player puts his foot into the opponent's court, completely crossing the center line he commits a foul (invasion).
※deepl翻訳

 こんな感じです。ブロックの際センターラインを越えた反則を指すのでしょうか?そんなに頻繁に起こるようなことではないと思うのですが、もしかしたらオーバーネットかタッチネットなのか、詳しい方がいたら教えてください。

 なんにせよ、古いデータにはそんな項もありますということで。

まとめ

 以上、イタリアのデータを集めましたよという話です。

 2022/2023シーズン以降も追加していく気ではいますが、過去に遡って集めるのはこれくらいにしようと思います。なんだかんだ20年分はあるので、まとまったデータが利用できるようになったといっても良いのではないでしょうか。

 帳票の記録ですので、データバレー等で得られるデータよりは少ないのですが(そしてバレーボールではトラッキングデータが一般的に利用できる日は来るのか?)、帳票レベルでできる分析はやり尽くして、これ以上はもっと精度の高いデータが無いと無理というところまで到達していないと、新しいデータが使えるようになっても、大量のデータを持て余しがちです。そういう意味ではこのデータからできることはまだまだあると思います。


タイトル画像:いらすとや

この記事が気に入ったらサポートをしてみませんか?