図解統計学「データ分析の流れ」
図解統計学、はじめました。
完全にこばかなさんや渡さんの真似で始めましたが、僕は統計学について図解していきます。
図解統計学は、Twitterでやろうと思っており、なるべく「簡単に、わかりやすく、統計学や、データ分析の話をしていきます。
図解統計学をやり始めて思ったのは、簡単に終わらないってことでした(笑)
作ってみると、あれも入れたい、これも入れたい、となってしまったのです。そこで、Twitterの図解統計学に書ききれなかったことを、noteで書いていこうと考えました。
今回はこちら
タイトルにもありましたが「データ分析の流れ」です。
基本は図解の通りでして、データ分析は「目的」ありきで始まり、意思決定をするために行います。
例えば、「新しく作った薬が、既存の薬と比べて、どのくらい効くのか知りたい」や「ダルビッシュ有投手と前田健太投手のどちらがより優れているかを知りたい」というのが目的にあたります。
これらの目的を達成するために、統計学、そしてデータ分析が役に立ちます。図でいうところの、方法、データ集め、解析の部分です。
方法では、何を基準に、目的を達成できるかを決めたり、そのために必要なデータを、どのように集めるか?どれくらいのデータが必要なのかを考えます。そしてその後に、必要なデータを集め、解析していきます。
例えば、ダルビッシュ有投手と、前田健太投手のどちらが優れているかを調べる場合に、基準として、9イニング当たりの平均失点数を用いるとしましょう。彼らは2人ともドジャースに所属しているので、チームの守備力が失点に差を与えることは、ないと思います。必要なデータ数は、統計学の公式を用いると、約100イニング必要だとわかりました(今回は適当に決めました)。
ここまでが方法です。後はデータを集めてきて、解析するだけです。実際の解析は、RやSAS、Pythonといった、分析ソフトを用いることになりますが、基本的に、既存の有名な手法は、データさえあれば、それを当てはめるだけで簡単に解析できるようになっています。
したがって、重要なのは、如何に既存の手法に当てはめられるようなデータを集めてくるか、ということになります。つまり、良い方法を計画でき、データがうまく集められれば、解析まで上手くいきます。
では、解析がうまくいったら?
解析結果を意思決定者に公開します。図では「公表」の部分です。ここで統計家は、意思決定者が理解できるように、解析結果をまとめ、発表します。
もし意思決定者が解析結果を理解できないとどうなるでしょうか。このとき、統計家も意思決定者も、両者とも不幸な結果になります。
統計家は、せっかくデータ分析して、良い結果が得られたのに、意思決定の役に立てない。これじゃあ、データ分析した意味がないと感じてしまうし、意思決定者も、わざわざお金を払ってまで分析してもらったのに、全然意味がないじゃないか、となってしまいます。
ダルビッシュ有投手と、前田健太投手の例に戻って考えてみましょう。
統計家が、「P値が0.04だったので、ダルビッシュ有投手の方が優秀です!」と言ったとしましょう。このとき、意思決定者(この場合は監督やGM)は「P値?なにそれ、おいしいの?」となるのが関の山じゃないでしょうか。これでは、意思決定者は「分析なんて意味がない。自分の判断の方が正しい!」となってしまいます。
データ分析は、意思決定のために行うことであって、統計家の自己満足でやることではありません。意思決定者に、統計学、データ分析の意味が伝わるような、統計家でありたいですね。
最後までありがとうございました。図解統計学は、Twitterでやっていくのでフォロー待ってます!