データ予想

競馬でよく登場するデータ予想。これを正しく理解してる人はどのぐらいいるのでしょうか。
データ予想でよく使われるネタは……
この距離は○○の子が強い、とか、このコースは後方待機が強い、とか、このレースは一番人気が弱い、とかでしょうか。
いずれにも大体共通して、
・単一の事象のみを持ち出して他の事象や全体の平均との比較をしていないせいで、本当にその事象が他と比べて優れてるのかがわからない
・統計学や遺伝学で見ると明らかにデータとして確定するには母数が少ないせいで、ただの一時的な偏りでしかない。それどころか、都合のいい部分で区切っていたりすることもある
このような問題があります。
この問題と向き合わずにデータ予想を語るのでは、データ予想を標榜する資格はないと断じざるを得ません。ただのジンクスとかオカルトに頼ってるのと変わらないと言えます。

ではデータ予想なんて無意味か?となると勿論そういうわけではありません。
予想のファクターとしてこれまでの情報の蓄積が有用なのは論じるまでもありません。じゃあそれがデータ予想じゃないのか?と言われると……データに対する謙虚さが無い、とでも言うのでしょうか。ニュアンスの違いとかになるのですが。
データというのはただの情報の集合であり、そこに答えはありません。データ予想として行っているのは、あくまでこれまでの情報、統計学的には明らかにデータとして確定するには足りない情報の蓄積から未来の結果を推測しているに過ぎないのです。そこから外れた結果が出るとやれデータブレイクだの何だのと言う人もいますが、この記事ではそういう人を戒めたいものです。よくあるデータ予想に説得力を感じない人は、この辺に理由があるのかもしれませんね