生データを取れれば色々できて面白い話

データを取るときに意識したいことに、生データを取ってくるということがあります。生データというのは、全く加工されていないデータのことでして、非常に情報量が多くなっています。

例えば、野球の打者データであれば、1球ごとに、打者名、自チーム名、相手チーム名、相手投手名、相手野手名、カウント、打撃結果、イニング、球種、自監督名、相手監督名などがあると良いと思います。

ではこういった生データを取ったときに、どんなことができるのでしょうか?

まずできるのは、層別解析です。野球の場合、選手ごとに成績を集めてくるのは公式記録でもされていますよね。それ以外にも、カウントごとに分析したり、球種ごとに分析するのは非常に楽しいです。選手の得意不得意なども、丸裸にできちゃいますね。

野球データでは、生データが公開されていないので、上のような層別解析ができないのが残念です、、、

他にも時系列ごとにデータを並べて分析することもできます。野球だと、選手の調子というものがあると思いますが、月ごとや週ごとに集計することで、ある時期だけすごく調子が良い選手なんかも見つかるかもしれません。

またどんなスポーツにもある「流れ」ももしかしたら視覚化できるかもしれません。イニングごとにデータを集計しなおすことで、あるイニングだけすごく点が入っているイニングがあるかもしれません。

このように、生データがあることの最大のメリットは、データを集計しなおせることです。自分の目的に合わせて必要なデータを取捨選択し、分析できるデータは統計やデータ分析好きにとってとてもうれしいことだと思います。

僕の好きな野球では、中々こういったデータがないので、もしこういう生データあるよって方いたらTwitterとかnoteのコメントで教えてもらえたらなあと思います。


Twitterもやっています。noteの更新情報とかをつぶやいてます。感想とかシェアとかくれるとうれしいです。

今回はこれで!ありがとうございました~

最後まで読んでいただきありがとうございました!サポートしてくれると非常に嬉しく、noteを書くモチベーションになります。