見出し画像

とある研究者がスプラトゥーンのTier表を"研究"に仕立てようとすると何をしたくなるか


はじめに

みなさんはじめまして!

主婦やスプラのガチマッチをやりつつ大学や企業でコンピュータサイエンスの研究をしたりしている女(ゆーひ)です!

最近下記のようなtweetが流れてきてふと目に止まりました。
(FF外の方ですが、勝手に言及失礼します🙇‍♀️)

わたしは影響力は皆無ですし、Tier表自体への興味も大してないのですが、スプラ界隈の中では割と学術研究をしている方ではあると思うので、"スプラのTier表作成"を自分の普段やっている研究活動に組み込むとしたらどのように取り組むかを考えてみたくなり、この記事を書くことにしました。

注意点

はじめにお断りさせていただきますが、この記事では何か新しいTier表やデータは全く登場しません
「Tier表を研究活動として認められる(例:論文として採択される)ようなものに仕立て上げるにはどういう視点やプロセスが必要か」を書くだけです。またそれらを実践はしておりません。
そのため、そうしたTier表やそれに付随した議論が読みたい方は対象となっていない点ご留意ください

逆に「大学の人たちがよくやってる"研究"ってどういう活動なんだろう?」と疑問に思っている方には多少は暇つぶしになるかもしれません!(7500文字以上あります。。。めちゃ長い。。。)
特に将来大学へ進学することも選択肢に入っている学生の方にこの記事が何かしら参考になったら、あまりにも嬉しくて小躍りしてしまいます( 'ω' و( و"♪

簡単な自己紹介

こういう記事を書くからには、わたしがこれまでヒヨッコ研究者としてどんなもんなのかを(個人が特定できない範囲ではありますが)簡単に説明させていただきます。

わたしはコンピュータサイエンスという分野で大学の学部4年生から研究に従事してきました。修士号を取得したのちに博士課程へ進学し、つい先日の2024年9月に無事博士(工学)を取得することができました。

学部4年から博士卒業までの5年半の間で書いた主な論文(ジャーナルもしくはフルペーパー)は主著で5本あり、わたしが関わった論文全ての被引用数は合計350件以上あります。

また、それ以外にも論文の査読者(学会や論文誌に投稿された論文を採択とするか不採択とするかの評価をする人)としても結構な数の論文を読んできました。査読をする際は「これは研究活動として成り立っているものか、未来に残すべき論文か否か」という観点で査読を行うため、今回もその観点でTier表作りを考えてみます!

研究とクレーム(claim)

まず最初に研究活動とはなんなのかを簡単に説明します。

コンピュータサイエンス分野の権威である東京大学の暦本純一先生の言葉をお借りすると

研究とは「新しいクレーム(claim)を提示し、それを立証する」こと。
(クレーム(claim)とは)科学技術論文では、正誤を客観的に判定できる言明。
立証とは、筋道を立てて理解すれば、それが正しいと納得できるように議論を構成すること(根拠と論理)。

暦本純一、「研究法(Claimとは)」

とのことです。ちょっとこれだけでパッと理解するのは難しいと思うので、Tier表関連の話題でクレームをいくつか立ててみます。

  • クレーム1: スプラ3最強のブキは〇〇だ。

  • クレーム2: A帯で停滞している人が簡単にS帯へ上がれるブキは〇〇だ。

  • クレーム3: 〇〇使いにとって対面してて有利/不利なブキは〇〇だ。

いくつかクレームを立ててみましたが、クレームには当然「研究にする上で筋が良いクレーム」や「筋が悪いクレーム」があります。

わたしが上記の3つの良し悪しを判定すると3≧2>>1という感じです。
研究にする上で筋が良い/悪いを判断する上では「クレーム自体の質」「それが立証できるか」という観点で見ています。
なぜなら冒頭の暦本先生の言葉をもう一度引用すると、研究とは「新しいクレーム(claim)を提示し、それを立証する」こと。だからです。

そういう意味でクレーム1(スプラ3最強のブキは〇〇だ。)はクレーム自体の質は高くありません。
なぜなら「最強」の定義がクレームから判別できないからです。

  • 誰でも簡単に使えてXPを上げやすい?

  • 使いこなすのは難しいけど理論値が高い?

  • 全ルールで使える?それとも人気のルールで強い?

  • Xマッチ限定?大会や対抗戦などを対象?

などなど「スプラ3最強のブキ」という文言の中にも様々な解釈が生まれます。Tier表を作るためにはどんな状況の人(対象)が何を目指す上で(目標)の話なのかが大事になりそうですね。

よくSNSで流れてくるTier表の賛否が別れるのは、「Tier表に対象や目標が明確に設定されていない」もしくは「設定されていても受け手の間で共有されていない」からなのでは?とよく思います。
Tier表を見て「自分が対象じゃない」「自分の目標と一致してない」と感じた人にとって、そのTier表は全く刺さりません。
またTier表の受け手の多くは自分自身をその対象据えた上で自分が思う目標を前提にTier表を見始めるわけですから、そりゃ齟齬が起きるわけです。
「このTier表みたいに上位帯だと〇〇は評価低いかもしれないけど、わたしのいるXX帯だと〇〇に対処できる人が少ないから評価高い」みたいな意見はよく目にします。

その点、クレーム2(A帯で停滞している人が簡単にS帯へ上がれるブキは〇〇だ。)やクレーム3(〇〇使いにとって対面してて有利/不利なブキは〇〇だ。)は対象も目標がクレーム1と比較するときちんと明言されています。

クレーム2は「A帯で停滞している人」を対象にしています。この時点で「王冠帯では〜」みたいなツッコミは筋違いになります。
また目標として「簡単にS帯へ上がれるブキ」としています。これによって「S帯に上がれてもその先では〜」みたいなツッコミも筋違いになります。

クレーム3は「〇〇使い」を対象に「対面に勝つ」という目標が設定されています。

蛇足ですが、そもそもTier表はSNSで拡散されてなんぼなので、こうした「クレームになり得るか」みたいな話は関係ないっちゃ関係ないですw
対象や目標を絞れば絞るほどクレームとしてはクリアになりますが、その分刺さる人も減ります。逆に強い言葉で主語を大きくすればそれだけいろんな人の興味を引くものとなり拡散されやすいです。
「クレームの質」と一言で言ってこれまで話してきましたが、このクレームが刺さる人の数もクレーム自体の質としては重要な要素です。
しかし、クレームの対象をクリアにしようとするとどうしても対象を絞って行かざるを得なくなり、必然的に刺さる人の数も減っていきます。
コンピュータサイエンスの研究においてもここは全体的にトレードオフの傾向があり、そこのバランスを求めていくのが難しいです。ただ、その中でもクリアな主張ながらも多くの人に刺さるクレームを提示できた論文が、たくさん引用されて後世に多大な影響を残す論文として生き残るわけです。

さて少し脱線してしまいましたが、ここまでは「Tier表をクレームとしてみた時の良し悪し」を考えてみて、そこからさらに「Tier表の賛否がSNSで分かれる」ところへ繋げてみました。

ここからは「Tier表を研究成果として成り立たせるためにはどうすれば良いか」について話していこうと思います。

クレームを立証するには

3度目になりますが、暦本先生の言葉を見てみます(一部抜粋)。

研究とは「新しいクレーム(claim)を提示し、それを立証する」こと。
立証とは、筋道を立てて理解すれば、それが正しいと納得できるように議論を構成すること(根拠と論理)。

暦本純一、「研究法(Claimとは)」

ここで言われていることは、「クレームを立てるだけでは研究にならない」ということです。
きちんと立証(筋道を立てて理解すればそれが正しいと納得できるように議論を構成すること)がなされてようやく研究になるわけです。

誰か(もしくは少人数)が主観でTier表という形式を使って何かを主張することは誰でもできます。
それが正しいかどうかを多くの人が納得できる形できちんと立証されて初めてそのクレームが研究として価値のあるもの、後世に残すべきものとなるわけです。

「誰もが納得できる形」としてよく用いられるのが「数字を使って立証をする」ということです。色々調査した結果の数値だったり、あるいはそれらを解析して出た数字を使うことで、主張に対して一定の信頼度を持たせることができます。

Tier表関連でパッと思いつくやり方として主観評価アンケートがあります。自分が作成したTier表をいろんな人に見てもらってそれが妥当かどうか、納得できるかを回答してもらうものです。よく使用されるのはリッカート尺度(Likert scale)[1]です。
設問に対して、強く同意するなら5点、同意するなら4点、どちらでもないなら3点、同意しないなら2点、全く同意しないなら1点という感じで5段階の評価をするタイプのアンケートは一度はやったことのある方も多いかと思います。
自分のTier表に対してそうやって集められた主観評価結果を数字で提示することができれば、自分のTier表の妥当性を主張できそうです。
[1] Likert, R. (1932). "A Technique for the Measurement of Attitudes" Archives of Psychology 140, 55.

しかし、その数字もただ適当に使えば良いわけではなく、その数字や評価の仕方の妥当性によってはその質は天と地も差があり、気をつけないと全く無意味どころか逆効果な(誤った言説を導く)ものになってしまいます。

こうした評価の妥当性も論文の査読における大きな検討箇所となります。査読を通して妥当な評価がなされていると判断されたものものが学会やジャーナル(論文誌)採択されます。

では査読の雰囲気を疑似体験するために、とある研究者がTier表を作成して評価を行い、それをとある査読者に提示した時のやりとりをシミュレーションしてみましょう。

著者:わたしが作った「Xマッチをプレイする際のブキTier表」を友人3人に渡して妥当かどうかを評価してもらいました。3人中2人が妥当と評価しました。
査読者:調査対象が3人では少なすぎて、結果に一般性があるとは言えない。
著者:twitter上でアンケート回答を募集した結果、100人から回答が得られました。
査読者:その100人のXPに偏りはないか?著者のフォロワーは比較的XPが高い層が多いため、XPの低い人たちの意見を掬い取れていない可能性がある。
著者:回答者のXPの分布を確認したところ確かにXPが高い傾向にあったため、再度XPを限定して満遍なく回答を集めました。
査読者:その回答者にブキ種の偏りはないか?持ちブキによって他のブキへの印象は変わりうる。
著者:すべてのブキカテゴリーで10人以上から回答を集めるようにします。

などなど…
こんな感じで誰を対象にデータを取るかによって、その結果がもつ意味合いは変わってきます。
そしてこのデータを取る対象クレームで対象とした人が密接に関わるわけです。ここの対応がきちんと取れていないと、読み手が納得できず、立証として不十分になります。

例えば上記の著者と査読者のやり取りの中で査読者はしきりにアンケートを集めた人たちの偏り(XPやブキ種)を気にしていました。これは著者が「Xマッチをプレイする際の」という比較的幅広い層を対象にクレームを打ち出していたからです。Xマッチをプレイする人の中には様々なパワー帯の人が、また様々なブキの使い手たちが存在します。それらを一緒くたにして「Xマッチをプレイする際の」と銘打ってTier表を作成したのだから、そこでデータを集める対象は幅広く偏りがないべきだ、となるわけです。

逆にこうした査読者からの偏りに関するツッコミに対して、データの偏りをなくすことを頑張る以外にも、クレームの対象を見直すというのも戦略としてあります。
例えば、自分が取ったデータがXP2000~XP2400までが多かった場合、「XP20~24が思うブキTier表」などとすれば、クレームとデータの対応が付くわけです。こうしたクレームと解析データの不一致はしばしば査読では「Overclaimだ(結果を拡大主張している)」と指摘されます。

また「データはすべての人を対象として偏りなくあるべき」というわけでもありません。「意図的に偏りのあるデータを抽出してそこにおける傾向を見る」というのもとても意義のある分析です。例えばXP2400を境にそこよりXPが高い人と低い人の2グループに分けて、結果が変わったら面白そうですね。
2グループに分けるにとどまらず、XPを100ごとに区切って傾向のグラデーションがつくようなグラフを結果として示せたらより興味深いデータです。(「〇〇とXPは相関がある」というような言い方をします)

数値を使った評価方法としてリッカート尺度を使った主観評価を出しましたが、主観評価を数字に置き換える以外にももちろん何かしら数値で測定できるデータ(量的データ, Quantitative data)を使えたらそれに越したことはないです。

例えばクレーム2の「A帯で停滞している人が簡単にS帯へ上がれるブキは〇〇だ。」について数値で測定できるデータはないか考えてみましょう。

著者:スプラトゥーンを初めてプレイした人を対象に、同じブキを使い続けてもらってA帯からS帯まで上がるのにかかった試合数を計測した。この数値が少ないほど「A帯からS帯へ簡単に上がれるブキ」と言える。

なんかいい感じですね。「誰かが主観で作ったTier表に対して感想を聞いて回ってデータを集めた」よりも、「実際のデータを使ってTier表を作成した」という流れは説得力が増しそうです。しかし、ここにあの査読者が来るわけです。

査読者:プレイした人のFPS経験やゲーム経験によってランクを上げるのに必要な試合数は変わる可能性がある。
著者:FPS経験のないプレイヤーを選出しました。
(査読者)それぞれのプレイヤーが知り得た情報に差がある場合がある。特にまたマイナーなブキは攻略情報が少ない不利がある。
著者:そうした情報の取得のしやすさも、ブキのおすすめ度の材料となると考えている。
査読者:全く情報を収集しないプレイヤーと熱心なプレイヤーでは上達速度に差が生まれるのでは?
著者:ではすべてのプレイヤーに対して同じ攻略情報を与え、練習内容や時間などもすべて著者側で指定するようにする。これでプレイヤーが知り得た情報や練習方法による差は生まれないはずである。
査読者:その攻略情報と練習内容はどのように決めた?妥当なものか?

などなど…

では今度は、クレーム3の「 〇〇使いにとって対面してて有利/不利なブキは〇〇だ。」についても考えてみます。

著者:〇〇使い100人を対象に最高XPで~2000, 2000~2500, 2500~3000, 3000〜の4つのグループに分け、それぞれのグループごとに1vs1をブキ種ごとに9戦行ってもらい、その勝率を求めた。対戦相手は同じXPグループから選出されている。また試合における対面と1vs1は異なる可能性もあるため、それぞれのグループごとにガチマッチ100戦分のデータを集計し(ステージは最低4種類含む)、それぞれのブキを相手にデスした回数も集計した。さらにブキ種ごとにマッチングする頻度の偏りをなくすためにデスした回数をマッチングした回数で割ったデータを算出した。

面白そうですね。どんなデータになるかわたしもとても気になります。
上記の算出方法について皆さんはどう受け取ったでしょうか?主張したいクレームに対して適した算出方法でしょうか?それともまだ不適切な部分があるでしょうか?おそらく人それぞれだと思いますが、より多くの人が適切だと感じるような評価方法をデザインすることが、クレームの価値に大きく関わるわけです。妥当でない方法で評価されたクレームはただの感想に近づいてしまい価値を落とします。

わたしはこの記事の最初の方に3つのクレームに対して「3つの良し悪しを判定すると3≧2>>>>1」と書きましたが、2と3で差をつけたのは、2の方は3と比較して立証方法として妥当な方法がなかなか思いつかなかったからです。
このように「クレームを立証できるか否か、ツッコミどころはないか」というのも良し悪しに関わります。どんなに価値のありそうなことを主張したクレームでもそれを立証できなければ意味がないのです。

ただこれはあくまでわたし(ゆーひ)が適切な立証方法思いつかなかっただけでもあります。どなたかが、「いや、こうやれば立証できるはずだ」と言う方法を思いついて実行すれば途端にクレームが輝き始めます。
つまり、「どうやって立証するか」を考えることも研究者としてセンスが問われる部分です。

ちなみにさらに細かいことを言うと研究では数値の平均だったりをグラフにして図示するのは立証方法としては弱いです。なぜならグラフを見た際にその結果をどう思うかは人それぞれだからです。そうした主観を排除するために研究者は「仮設検定」などのような統計学を用いた検定を行い、文句の出ないような結果(「〇〇と××には優位差がある」というような言い方をします)を提示します。
(わたしが仮設統計を学んだ本:栗原伸一、「入門 統計学(第2版)検定から多変量解析・実験計画法・ベイズ統計学まで」、オーム社

またさらに余談ですが、研究においては量的データ(数字で測れるデータ)を使って数字で立証することがすべてではありません。数字では掬い取れないデータ(質的データ, Quantitative Data)もあり、それらを論文内で丁寧に報告、議論することも論文として価値を残す手段の一つです。
Tier表で考えてみたら、Tier表作成時に作成者がコメントした内容というのは質的データになり得ます。何も言わずにTier表を出されるより、それぞれのブキに対して理由を述べながらTier表を作成していたらそれだけで納得感が増します(もちろん完璧にはならない)。

おわりに

バーーーーっと書いてきましたが、とりあえずは以上です。ここまで読んでくださった方は果たしてどれだけいるのでしょうかwww

はじめに述べたように、具体的に何かしらTier表を作ったり調査をしたわけでもない記事なので、スプラプレイヤーの皆様にどれくらい楽しい文章となったかは分かりません。。。
ただ、「普段工学の研究をしている人たちがどのような思考回路で研究に取り組んでいるか」「どういう行為をすれば研究として認められるか」などが身近なスプラトゥーンを題材に少しでも伝われば嬉しいです!!

最後までお読みいただきありがとうございます。

この記事が気に入ったらサポートをしてみませんか?