抽出ミスについて統計っぽく考えてみる

こんにちは!青島です。
いつも青島速報がお世話になっております。

今回は(と言ってもこれが初めてなんですが)青島速報での抽出ミスについて、私なりの考え方を書いてみよーと思います。

抽出ミス

青島速報ではレース情報・結果・予想ツイート等を全て自動で収集しており、人手(つまり私)でによる抽出結果のチェックは一切行っていません。
そのため、「抽出できない」「間違って抽出される」ということが起こりえます。

「結局完全に抽出できてないから」

という指摘は全くその通りで、あくまでも青島速報上での結果は参考値を超えるものではありません。
では「その参考値に全く意味がないのか?」というのが今回のトピックです。

太郎くんの算数能力とテスト

予想の抽出ミスの話に入る前に、いきなりですが、太郎くん(仮名)の算数の能力を測ることにします。
早速テストを実施してみたら70点でした。


では、太郎くんの算数の能力は7割と考えるのが妥当でしょうか?
たまたま適当に書いた項目が合っていたのかもしれないし、たまたまお腹が痛くて単純な計算ミスをたくさんしただけかもしれません。
ということで、1回ではわからないので5回やってもらったところ、以下のような点数でした。

1回目 70点
2回目 60点
3回目 78点
4回目 91点
5回目 57点

この5回の結果を合わせて太郎くんの算数の能力を知ろうとしたら、ほとんどの人が平均をとると思います。
つまり71・2点です。

さて、この結果はさっきよりも信頼のある太郎くんの算数能力な気がします。
そして、10回・100回・10000回・・・とテストを繰り返すほど、本当の太郎くんの算数能力に近づける気がします。
なぜなら、色々な「たまたま」(鉛筆が全て折れた・寝不足だった・採点が間違えた、などなど)が起きるかもしれず、回数が少ないほどそのたまたまが目立ってしまうからです。

統計では

「知りたい値とは関係のない要因が起こるため、本当の値を直接知ることはできない。本当の値を基準にして出現した実際の値だけを知ることができる。」

と考えます。
いきなり「何言ってるんだ」という感じですが、大したことはないです。

「本当の値」=「太郎くんの算数の能力」

「本当の値を基準にして出現した実際の値」=「各テストにおける点数」

「関係のない要因」=「たまたま」

というだけです。
つまり、

「たくさんのテスト結果を平均して太郎くんの算数能力を知る」

というのは、

「時々で起こるたまたまの影響を小さくすることで、知ることのできる値から見えない本当の値を推定している」

ようなもんです。
私たちが直感的に行うこと(1回じゃ何か不安だから複数回やって平均を取ろう)は、統計的にもそう悪くはないんですね。

抽出ミスと予想力

ここでは「予想力」=「1日の回収率」として考えましょう。
青島の予想のうまさを知りたかったとして、ある日の回収率を調べたら70%でした。


では「青島の予想力は回収率70%だ!」と考えるのが妥当でしょうか?
たまたまレース番号を間違えて投稿した予想が的中しただけかもしれないし、たまたま何度も5と6を打ち間違えて的中を逃しただけかもしれません。
ということで、1日ではわからないので5日間の回収率を調べてみました。

1回目 70%
2回目 60%
3回目 78%
4回目 91%
5回目 57%

この5回の結果を合わせて青島の予想の能力を知ろうとしたら、ほとんどの人が平均をとると思います。
つまり71・2%ですね。

・・・以下略

ということで、あとはさっきの太郎くんの算数能力と一緒です。
「たまたま」の部分に

なぜか調子が良かった
サーバーが一時的にダウンしていた
特殊な事故レースのため集計されなかった
間違った買い目をあげていた
etc..

といった原因が想定できます。

上のような原因があるため、誰も青島の本当の予想力(回収率)を知ることはできません。
しかし、たくさんの日の回収率をチェックすれば、その結果は本当の予想力に近づいていく気がします。


調子の良い日・悪い日は誰にだってありますし、サーバーのダウンは突発的なものです。
また事故レースも正常レースに比べたら少数だし、常に買い目を間違っているなんてそれはもはや間違いではないですね。

結局抽出ミスは色々な「たまたま」の一種なんですね。
そのため、「抽出ミスを含んだ参考値」というのは、一日二日程度見ているうちはミスの影響が大きくなります。
しかし、長く見れば見るほど、統計的には無視できるような些細な誤差となっていくんですねえ。

まとめ

とはいえ、正確に取れるに越したことはないのはその通り!
できるだけ正確に取れるよう日々修正・改善を頑張っております・・・><

(ちなみにハンターハンターのどこかに似たような話があります。)
(自分が120%の力を出し切って、相手が70%の力しか出せなければ勝てる、みたいな。)
(蟻篇の直前でゴンとキルアがナックルとシュートに挑むところ?)

この記事が気に入ったらサポートをしてみませんか?