統計データの種類とまとめ方

Mリーグの各種試合データをまとめるうえで心がけているポイントがいくつかあります。
元々数字をまとめることは好きなタイプでしたが、特に仕事でこういったスキルを使うことも、ましてやずっと同じような活動をしているわけではありませんでした。
ですが、4年ほどMリーグのデータをまとめている中で、こういった見方でSNSで数字やデータを紹介すると、見やすい・分かりやすいということがある程度見えてきましたので、少しご紹介してみたいと思います。

1.一次データ・二次データ

本論の前に少しクイズです。次のデータを2つのグループに分けてみてください。答えは後ほど。

①和了率 ②総放銃点数 ③平均裏ドラ枚数 ④登板試合数 ⑤聴牌料収支


さて、Mリーグ、というよりは麻雀という競技においては、各種プレイヤーの様々な行動が試合の結果、選手の傾向などを示すデータとして目に見えるものになってきます。例えばですが、1試合出場すれば登板試合数は当然1増えます。また、その試合で満貫の和了を1回記録すれば、和了1回、和了点数が8,000点加算されます。当然と言えば当然ですが、あらゆる統計データの事象は、各選手・チームがどの様なアクションを何回行った、あるいは何点の得点・あるいは失点があったか、その積み重ねが「データ」と呼ばれるものです。
では、やみくもにありとあらゆる事象を記録するのは人の手では限界がありますし、当アカウントもたった一人でデータをほとんど人力で集計していることから、例えば「ある選手は索子を引きやすく、全2,000回のツモのうち、約45%の900回が索子で偏りがあります!」というデータは現実的に集計は不可能ですし、集計をしたところでナンセンス(少なくとも筆者には)です。

そこで、どんなデータが麻雀において有用なデータなのか、というところで一つ検討が入る訳ですが、まずゲームに勝つためには得点を増やし、失点はなるべくしないようにするわけですから、「何度和了したか」、「何度失点したか」や、「何点の得点をした」、「何点の失点をした」というデータを取ればよさそうです。もっと言えば、ゲームに出るわけですから当然試合数は1増え、局数も大体10局程度増えます。そうすると、『ある選手は1試合登板して10局を担当し、和了2回(合計13,200点の得点)・失点1回(3,900点の放銃1回)を記録して、最終的なスコアは+5.5の2着を記録した。』という試合結果とデータを得られます。こういった試合結果が材料となり、そこから料理をしてデータが完成します。

テーマの一次データ・二次データは一次データは「材料」、二次データは「料理」となります。ピンとこない方に先ほどの試合結果の例を出してみます。

「登板試合数1試合」「担当局数10局」「和了2回」「総得点13,200点」「放銃1回」「総失点3,900点」「2着1回」「スコア+5.5」これらのデータがまずは材料となる【一次データ】となります。言ってしまえば、集計する事象の積み重ね・合計というものがこのデータの性質です。
そして、これらのデータから何が分かるかというと「和了率20%」「平均打点6,600点」「放銃率10%」「平均放銃点3,900点」「平均着順2.00」「平均スコア+5.5」…etc.という風にデータとデータを組み合わせたあらゆる指標が生み出せます。大元の複数の一次データから指標を作ったこれらのデータが【二次データ】となるわけです。

統計を取るうえで重要なのは「この一次データを積み上げることで、果たして有効性のある指標(二次データ)を作れるか」という点です。麻雀という競技の性質上複雑なアクションが多々あるゲームについて、何か有用なデータを作るとしたら攻撃・守備・運、そういった要素を定量的に分析するために必要なデータが何なのかという所を見つけ出して集計していきます。

従って、冒頭のクイズの正解は②④⑤が一次データのグループ、①③が二次データのグループとなる、でした。

Mリーグ2021-22 園田賢選手の一次データ

上記は今季の園田賢選手のレギュラー登板最初の10試合における一次データです。和了点数、放銃点数、和了回数、放銃回数、リーチ回数、一発和了回数、親番局数、副露回数、等、園田選手が試合で起こした数々のアクションを積み上げていく記録となります。
そして、これらを材料として作られるのが下表となります。

選手別打ち筋データ

試合数、総局数、和了回数、聴牌料収支以外はほぼ二次データとなります。公表するデータはほぼ何かと何かのデータを組み合わせた二次データが多く、とりわけ、各種データをゲームを見ながらぼリアルタイムに伝えるにはどんなデータを集計して、どんなデータは集計しなくてよいのか、こういったことを踏まえて統計を取る一次データの種類を絞ることが、非常に大事になってきます。

2.データの3性質

私の持論として、Mリーグのデータは3つの性質に分けられると思うところです。

① 起こった事象を統計的に回数を数えていくデータ
② 二者以上の対象について項目の優劣を表すデータ
②' 二者以上の対象について項目の大小を比較するデータ
③ 最高/最低記録となるレコードデータ

まず①ですが、これはほぼ一次データです。和了が何回あった、副露が何回あった、何試合に出場した、和了点はいくつだった…など、ある事象が何回あったかをカウントするデータとなります。あらゆるデータの材料となるので、取捨選択の上レンジを広くとる必要があります。

続いて、②ですが、これは「数値が高ければ高いほど(低ければ低いほど)優秀である」とはっきり分かるデータです。1試合平均スコアや和了率、平均着順等の直感的に見て分かりやすく、成績との相関性が高いデータです。
亜種として副露率、聴牌料収支など、一概に高ければ高いほど(低ければ低いほど)いいものとはいえず、その選手のプレイスタイルを示す様なデータもこのジャンルに含まれます。

最後に③ですが、これは今後もっと価値が出てくるであろう最高記録・最低記録の各種レコードに関するデータです。放送中にある選手が4連勝を記録した、70局連続無放銃を記録した、など、このMリーグが続く限り残る盛り上げどころの強いデータです。

さて、これらのデータですがオフィシャルで取り上げるのは当然と言えば当然ですが②のデータがほとんどで、とりわけ上位・下位に位置する外れ値のようなデータ(黒沢選手の副露率など)を紹介したり、選手入場時にはこれらのデータをいくらかピックアップしている程度です。
しかし、これは当アカウントでの感覚的な印象ですが、「麻雀歴の浅いライト勢の方々は②のデータ」に興味を示し、「ガチ勢の方々は①②'のデータ」に興味を示す傾向が見て取れます。

これは、推論ですが、応援したての方々は「誰が優勢で誰が劣勢なのか?」という点がポイントであり、和了率や放銃率、平均打点、平均放銃点といったズバリ数字で比較して高い・低いで優劣が分かりやすいデータに興味があり、中級者~上級者、チーム・選手本人からは②のデータもさることながら、打ち筋に対する各選手の傾向比較でその選手のプレイスタイルについて掘り下げていくことに興味を示すという仮説があります。

残った③は半分提言となりますが、圧倒的にインパクトをもらえるデータなので公式の方でしっかりと定義づけをして記録の管理をしていただきたいデータです。
毎年のオフィシャルガイドブックの非公式記録データには必ず、その年までの最高記録を掲載しており、記録更新の懸かった大一番については注目度も高く、事実、SNS上でも想像を超える反響を頂いています。選手の活躍について盛り上げていくためにも、このテーマのデータはもっと露出していただきたいと思います。

3.データの見せ方について

チーム順位表
ゲームスタッツ
チーム別打ち筋データ
レコードデータ

シーズン中よく掲載するデータまとめ画像を3種類用意しました。

チームの順位表は90試合のゲーム結果の積み上げなので前章の①のデータを中心に構成されています。
続いてスタッツデータ。試合中の事象に対して何が何回あったかというデータを中心としているのでほぼ①系統ですが、連続データも取り入れ①と③の構成となっています。
3番目にチーム打ち筋データ。これは、各チームの打ち筋や傾向を比較するデータなので②と②'傾向がほとんど、一部①のタイプのデータとなっています。
最後に連続記録に関するデータ。これはがっつりと③専門のデータで、たまにしか掲載しないため管理がしにくいですが大きな反響をもらえます。

データの見せ方の工夫としては①②③それぞれのデータをあまり混ぜすぎないことです。一つの図表に全てをぶち込むと何を伝えたいデータなのか皆目見当が付かず、逆に見にくくなってしまいます。
このため、この図表は誰向けに、どんな目的で、何のデータを知ってほしいのか、ピントをはっきりさせる工夫が必要で、一番の要点となります。

順位表のデータは何を第1指標にしているかを視覚的に分かりやすくするためにポイント欄をフォント大&網掛けにして、最重要点をまずはっきりアピールします。その補足として着順の分布、各チームとの立ち位置の相対比較を示して、現在の状況がどんな立場なのかをライト層向けにも分かりやすくする工夫としています。
スタッツデータはその試合中にどんな事象が起こったのかを伝えたいので、基本的には回数の積み上げ表記としつつ、稀な頻度とはいえ大記録への軌跡をはっきり伝えるためにも連続記録データを掲載してバランスを取っています。
打ち筋データはライト層・コア層どちらにも分かりやすくするため、とりわけチーム打ち筋は項目をピックアップしながらチーム状況の優劣を比較し、打ち筋の傾向が分かりやすいように上位下位に網掛けをしています。
そして、連続記録データはオフィシャルであまり取り上げられないので、速報アカウントよろしく大記録の樹立の際には第一報で速報を入れるための準備を日々から行って、レコード達成の際にはインパクト絶大に報じるためにまとめております。

「データはごちゃ混ぜにしてはいけない」誰に、どんなデータを届けたいか、そういったポイントを絞って見せる工夫ができたことで結構好評を頂くことが多いです。

4.結びに

麻雀においては複雑なアクションが絡まっていると申し上げましたが、その中での最小単位をどこに設定するかがデータの精度を大きく左右します。
このアカウントでは1局内でのアクションを最小単位としていますが、もしこれ以上掘り下げるとするならば例えば平均配牌シャンテン数の計算や、牌の偏り検証のため、上ヅモ・下ヅモの種類に有意な差があるかどうかの検討などが考えられますが、人力でできる限界とリアルタイムに統計を取る限界からそこまでできておりません。仮にここから全試合の配牌を見返すとなると39,472人分の配牌を見ないといけないので非現実的。ここまでくるとAIやチームでの研究が必要になるレベルです。

どんな行動の統計を取るか→無理なく統計記録を作れるか→記録した一次データを組み合わせてどんな指標が作れるか→(統計項目の追加)→出来上がった指標をどんな風に見せるか

このサイクルを完成させて、視聴しながらも楽しめるデータを作ることが出来るかがここ数年の目標だったので、これについては概ね満足です。
ガイドブックのデータもそうですが、このデータを見ながら中継を見るともっと楽しくなる!が最大の目標ですので、日々麻雀に関する知識と表計算ソフトのスキルアップ、統計学に関する知識を増やすことが私自身の課題であります。
ここまでは記述統計学のお話ですので、さらに高度な統計分析スキルを身に着け、指標と指標を組み合わせた三次データの発見、ゆくゆくは選手の打ち筋・指標を定量的に分析できる指標を作り上げることが、麻雀界のデータ分析の一つの目標になるのではないでしょうか。

乱文雑文のなか、最後までご覧いただきましてありがとうございました。