見出し画像

統計的有意 p値って何ですか?


統計の考え方ってちょっと癖があって、日常の感覚とは違う部分があります。

この独特な考え方を理解し使えばいいのですが、不適切な使い方をしてしまうケースもあります。

その代表が統計で使われるp値という数値の誤用で、2016年にアメリカ統計協会が「正しく理解して使いましょう」という趣旨の声明を出しています。

今日は風邪薬の効果の検証を例に、統計的検定の流れと、その中で使われる統計的有意p値という言葉の意味について超概要を記してみたいと思います。

風邪薬の効果を検証

統計的検定の概要を、新しく開発した風邪薬に「回復を早める効果があるか」を検証する場合を想定して説明します。

まずはデータ収集

風邪を引いている100人を選んで薬を飲んでもらい、回復日数を計測します。

データが収集できたら、効果の有無を検証します。

効果を確かめる

収集したデータを使った統計的検定により、新しい薬の効果の有無を検証します。

統計的検定の方針
収集した「投薬者の平均回復日数」とあらかじめ分っている「一般人の平均回復日数」の差を比較します。

一般人の風邪の回復日数はその分布(回復の平均日数、回復日数の個人差など) があらかじめ分っているとします。

これに一定以上の差があれば、薬の効果があるとみなします。

「一般人の回復日数とある程度以上差があったら、それは『たまたま』とか『誤差』とかじゃなくて、薬の効果があったって考えた方が自然だよね」という考え方です。

統計的検定の手順
統計的検定の手順はちょっと独特です。

まず、"薬に効果が無い"、言い換えると「薬飲んでも、飲まなくても回復日数に変わりは無い」 という仮説を立てます。これを帰無仮説と呼びます。

測定した100人の回復日数の平均を算出します。

帰無仮説の確率分布に従う環境で、測定した値になる確率を算出します。

その確率が低い場合は "薬に効果が無い" という帰無仮説を棄却し、"薬に効果がある"という対立仮説を採用します。

"薬に効果が無い"場合に計測した値になる確率低い場合「低い確率の事象が発生した」と考えるより「 "薬に効果が無い" という仮説が間違ってた」言い換えると"薬に効果があった" とする方が自然でしょう」という考え方です。

判断に使う数値

『一定以上の差がある』という判定をするためには数値的判断基準が必要です。

判断に使う数値
数値的判断の基準に使われるのが、p値と有意水準です。

p値 : 「仮説が正しい場合、観測値と等しいか、それよりも極端な値をとる確率」
有意水準 : 「p値がどのくらい小さい場合に帰無仮説を棄却するかの基準」

風邪薬のケースで説明

p値
p値
は母集団の分布(平均、分散)、標本のサンプルサイズによって変わります。

今回は一般人から100人をランダムに選んだ場合のp値が下記のようになるとします。(一般人の分布はあらかじめ分っているという想定)

平均回復日数が3.7日以下になる確率 20%
平均回復日数が3.2日以下になる確率 10%
平均回復日数が2.9日 以下になる確率  5%

有意水準
有意水準は検証を行う前に決めておきます、今回は有意水準を5%と設定します。

有意水準は0.05に設定されることが多いです。
この値に何らかの理論的な根拠がある訳ではなく、これまでの慣習でこの値が使われるケースが多いです。

判定方法
「薬を飲んだ人」100人の平均回復日数が3.7日だった場合、それは「一般の人」100人でも20%はありうる値なので、効果があると判断できません。

「薬を飲んだ人」100人の平均回復日数が2.9日以下だった場合、それは「一般の人」100人でも5%以下しか発生しない値なので、偶然その値になったのでなく、薬に効果があったと判断します。

統計的有意とは

事前に設定した有意水準p値が下回った場合統計的に有為な差が認められたといいます。

以上、統計的検証の流れと、その中で使われる統計的有意とp値という用語について超概要を述べてみました。
詳細は記していないので、もやっとしたところが残るかと思います、ご興味もたれた方のために文末で参考書籍をご紹介しておきます。

p値の誤解

p値は「仮説が正しい場合、観測値と等しいか、それよりも極端な値をとる確率」以上でも以下でも無いのですが誤用されがちです。以下誤解しないための注意点を述べてみます。

効果の大きさを示すものではない
p値は効果の大小を表すものではありません。

実務上意味の無い小さな違い(例えば4日が4.1日になった)の場合も、サンプル数が多ければp値は小さくなる可能性があります。
逆に、実務上意味の有る違いの場合も、サンプル数が少なければp値は大きくなる可能性があります。

何回もやっていい結果を出しちゃだめ
思った結果が出なかったからと、何回もテストを繰り返して有効なp値が出たものだけ報告するのは不適切です。p値0.05の場合、100回に5回しか起こらない低い確率を前提にしてるのに、何回も繰り返すとその前提が崩れます。

これは、おみくじを何回も大吉が出るまで引くのと似てますね

p値だけで判断してはダメ
p値はあくまで一つの指標にすぎません。その他の統計手法、実務上の考慮点などを鑑み、最終的な判断を行う必要があります。

帰無仮説が棄却されなくてもそれが正しいということにはならない
収集したデータでは差があることが証明できなかった、という程度で帰無仮説が正しいとは言えません。

以上、今日はp値について記してみました。

参考資料

The ASA Statement on p-Values: Context, Process, and Purpose
https://amstat.tandfonline.com/doi/full/10.1080/00031305.2016.1154108#.XaGkcOf7Rdg

詳細を知りたい方へのおすすめ書籍

まずは統計全般を知りたい場合



統計的検定 p値の位置付けについて知りたい





この記事が気に入ったらサポートをしてみませんか?