確率と統計の正しさについて勉強したこと

少し小難しくてマニアックな話になってしまったもの。『その主張、ほんとに正しい?』のオマケ。

確率にまつわるオマケ

モンティ・ホール問題

情報が開示されると気が付かないうちに前提が崩れていることがある。その例として有名なのが、次に挙げるモンティ・ホール問題だ。

  1. 前提1 : A, B, Cのうち1つが当たりだが、選べるのは1つだけ

    1. → Aを選んだ

  2. 前提2 : 選ばれなかった2つのうち、ハズレの1つを明かす (2つともハズレだったらランダムで明かす)

    1. → Cはハズレと言われた

  3. 問題 : 選択肢を変えるべきか?

    1. → Bに変えたほうが当たる確率が上がる?

意外にも選択肢を変えたほうが良い。というのは、「A vs B」ではなく「A vs <BまたはC>」を比べていることになるからだ。「確率は過去の結果に影響されない」という原則に反するように感じるが、「B」という選択肢が変化して「BまたはC」になったことにより、確率が変わってしまった

事前確率と予測精度の問題

医療やAIなどの検査・予測精度を考える時にも、確率が関わってくる。もともとの確率 (検査前確率) を、検査・予測を通して変化させる (検査後確率) 作業だからだ。このジャンルも間違いやすい。たとえば、感染症に対する検査を考えてみる。

混同行列

上記の表は混同行列と呼ばれるものだ。検査精度は2つの指標で表される。横軸で比べた時の割合だ。

  • 感度 (再現率) : 感染者に対して、正しく陽性と判定する割合 (= 真陽性 / (真陽性+偽陰性) )

  • 特異度 : 非感染者に対して、正しく陰性と判定する割合 (= 真陰性 / (真陰性+偽陽性) )

感度が高いと感染者を拾い上げる確実性は高いが、偽陽性のこともある。そのため、陰性だった時の除外に有用とされる。特異度が高いと非感染者を陰性と判定する確実性は高いが、偽陰性のこともある。そのため、陽性だった時の確定に有用とされる。

その他に、結果の正しさの指標がある。

  • 陽性的中率 (適合率) : 陽性の場合に、本当に感染者である割合 (= 真陽性 / (真陽性+偽陽性) )

  • 陰性的中率 : 陰性の場合に、本当に非感染者である割合 (= 真陰性 / (真陰性+偽陰性) )

感染者/非感染者の割合 (縦軸で比べた時の割合) は一定せず、検査精度とは関係ない。つまり、結果の正しさは、検査精度だけでなく感染状況 (検査前確率) の影響を受けるのだ。
たとえば、90%が感染していると疑われる状況で、感度90%・特異度90%の検査を行ったとする。その結果の内訳は、次のようになる。

混同行列 (例)

さて、結果の正しさ (的中率) はどうなるだろうか。

  • 陽性的中率 : 98.8% (= 81/82) → 陽性だったらほぼ正しい

  • 陰性的中率 : 50.0% (= 9/18) → 陰性でも半分は間違っている

陰性だった時のことを考えると、そもそも検査する意味があったのか?となってしまう。まとめると、ポイントは2点だ。

  • 検査 (予測) 結果の正しさは、そもそもの状況 (検査前確率) の影響を受ける

  • 結果の種類 (陽性/陰性) によって正しさが違う

統計にまつわるオマケ

データが足りない

大数の法則」と呼ばれる法則がある。データ数に比例して統計的確率が数学的確率に近づくものだ。データ数が少ないと偏りやすいとも言える。例えば、コインを10回投げて表が7回出たとしても、「表が出る確率70%」とすべきではない。100回・1000回とデータをとるうちに、数学的確率である50%に近づくであろう。
また「このパターンは偶然ではない」と解析する場合は、結論を言うための妥当なデータ数 (サンプルサイズ) が計算 (設定) できる。これも目安ではあるが、そもそも検討されずに結論づけられれていることもあるので注意だ。

データが偏っている

意図的にデータを選んだ場合はもちろん偏る。そうでなくても、意図しない偏りが発生することがある。
とくに、介入効果を検証する場合に問題になる。本来であれば、介入した未来と介入しなかった未来を比較したデータを集めるのが良い。しかし現実には介入するかしないかの二者択一である。そのため「介入されたケース vs 介入されなかった別のケース」で比較するしかない。もし結果に差が出たときに、それが介入効果なのかケース個別の事情 (いわゆる個人差) なのか判断が難しい。
こういったデータ選択による偏り (セレクションバイアス) を減らすために、いくつか方法がある。代表的なものでは、ある集団をランダムにグループに分けた後で、介入を行う方法がある (ランダム化比較試験と呼ばれる)。また、グループ分けや評価の時にも、意図が入り込まないようにする工夫 (マスキング) も重要だ。そしてこういった検証方法ごとに確からしさの序列 (エビデンスレベル) がある。

  1. メタアナリシス : 複数のランダム化比較試験を統合したもの

  2. ランダム化比較試験 : ランダムにグループ分けして比較実験したもの

  3. 自然実験・疑似実験 : 偶然生じた比較実験のような状況を観察したもの

  4. 回帰分析 : 既存のデータから交絡因子を取り除く処理をして、データ間の影響度を数式で近似したもの

なお、どんなに優れた方法でも、解析したデータ (サンプル) とデータの元になった集団 (母集団) についての結論しか言えない。他の集団についても同じ結論を応用できるか (外的妥当性) は分からない。

この記事が参加している募集

最近の学び

この記事が気に入ったらサポートをしてみませんか?