見出し画像

”ドメイン知識を有する者が納得できる基準点を決めろ”読書note111「瀕死の統計学を救え!」豊田秀樹著

久々の投稿です。有意差検定に関する本です。長年、疑問に思っていた事に対する答えの本でした。統計に関する難解な部分は半分も理解できていないと思いますが、この本が応えようとしている課題や問題については、何となく理解しているつもりです。

仕事柄、調査はよくやりました。特に製品開発がらみで、製品使用テストといったものです。プロト品と競合品を一対にして、それぞれ1週間ずつ消費者に家庭で使ってもらって、それぞれ評価(アンケート)に答えてもらう。そのデータを比較して、製品の完成度を確かめるといった感じの調査はかなりやってきました。テスト品の準備の問題から、だいたいn=100位が多かったように思います。すると、プロト品:50%評価 競合品:45%の評価といった差が出てきますが、ここで、この調査結果に有意な差(統計的な差)があるのかという質問を受けます。この調査結果を有意差検定にかけるのですが、n=100位のサンプルでは容易に有意差はつかないのです。だからといって、この2品に差がないといって、開発を否定できるのか? あるいは、有意差が出たといって、この5%の差で、プロト品は競合に勝てると判断できるのか?という事を常々感じてきました。。。。

その問いにこの本は答えてくれます。有意性検定は、そんなことには応えてくれない、と言い切ってくれています。

観測対象の数nの関数です。nを動かしてみると
 x差>1,670=f(n=20)
    x差>1,056=f(n=50)
    x差>0.747=f(n=100)
    x差>0.236=f(n=1000)
    x差>0.106=f(n=5000)
    x差>0.024=f(n=100000)
となりました。第一式はn=20の場合ですから、実験状況そのものです。平均的な体重の減少量が1670g以上であれば、この実験は「統計的に有意」であったことを示しています。
 被験者を100人に増やすと、どうなるでしょう。平均的な体重の減少差が747ℊ以上であれば、「このダイエット法は有意だ」と論文に書けます。n=10万なら、24ℊ以上でりっぱに「統計的に有意」です。しかし、24ℊのダイエット法など、科学的にはまったく無意味です。

同本より

有意差検定はn数に依存するものなのです。大量のn数を使って、有意差を出しても、その差が微々たるものであれば、決して競合に勝てるものではないということは明白です。

「ドメイン知識を持った者が納得する基準点を作れ」とこの本では推奨してります。まさに、会社時代に、過去の開発調査結果を積み上げた上で、この水準の評価を獲得できなければ次に進めないという調査結果判断のルールを独自で作ってきました。まさに、この考え通りの事をやってきたと改めて自信を深めました。

アメリカ統計学会(ASA)が統計的優位性とP値に関する声明を発表しているそうです。その中の一つに、「科学的な結論や、ビジネス、政策における決定は、P値がある値(有意水準)を超えたかどうかにのみ基づくべきではない。」と明確な記述があります。

有意差検定はビジネスでは使えない、とずっと感じてきましたが、科学研究でもそうなんだと、少しすっきりした思いです。

それから、この本では、そのような有意差検定の課題を解決すべく登場したのが、ベイズ定理であると、説明しています。難しくてついていけないので、もっと勉強する必要はありますが、、、、ベイズ定理の意味合いを有意差検定との関係で捉えたことがなかったので、その意味で、目からうろこの話でした。ベイズ定理について、もっと勉強しなくてはと思えたのもよかったことの一つです。

この記事が気に入ったらサポートをしてみませんか?