見出し画像

混同行列って。偽陽性と偽陰性を理解しつつ、どう評価するのかを考える

先日(というか、書いていない間に1か月くらい経ってしまった・・・)、あるところで高校生の研究発表を聞く機会がありまして、そこで混合行列が出てきたいので、少し自分の復習を込めてまとめておきたいと思います。

混同行列 どっちがどっち

混合行列とは、英語でConfusion matrixという名前で、個人的には文字通り混乱しやすい表だと思っています。予測(もしくは判断、検査結果など)と実際の結果をまとめた2軸の表です。

wikipediaより

見たこともある人も多いのではないでしょうか? ただ、予測と実際の結果が逆転された図になることもあるので、(予測が列になることのほうが多い気がします。) どちらが予測かを確認することが大切です。

箱の中の組み合わせですが、基本的な考え方としては予測が陽性(Positive)か陰性(Negtive)が合っている=真(True)か間違っている=偽(False)かで名前を付けています。
予測も実際もPositiveの時は 予測が陽性。予測と実際が正しいので真陽性(True positive)となります。
ちなみに真陽性、真偽性はわかりやすいと思いますが、偽陽性(TP)、偽陰性(TF)について少しだけ。
偽陽性(FP)は先ほどのロジックだと予測は陽性、その結果は偽(予測と違う)なので、見間違いというか誤審(ファールじゃないのにファールといってしまった)ものです。逆に、偽陰性(FN)。予測は陰性、その結果は偽(予測と違う)なので、陽性を見逃したことになります。

TP, TNが実際に正しい予測をできた総数となります。基本的に予測をするテストはこの割合が高くなることを要求されるのですが、予測の正しさのはかり方というものがいくつかあります。

予測の正しさのはかり方

①全体で見る: (TP+TN)/(TP+FP+TN+FN)
全件数のうち、正しく予測できたものの合計で測る方法です。
一番シンプルで、わかりやすい。
ただし、問題点としては、TPやTNがほとんど出ないパターンの時、
具体例でいうと、1,000人に1人しか発生しない病気の検査をする場合、
1,000人の検査をする場合、検査しないで全員ネガティブっていっても、 
99.9%の正確さが期待できるわけです。
無理にTPを探しにいて、FPを増やしてしまうことになりかねないので(検査能力による)、全体で見る場合の正確さは下がってしまうことがあります。

②陽性と予測した人の中で的中した人の割合で見る:(TP)/(TP+FP)陽性の中で本当に陽性だった人の割合です。ある意味誤審率の反対になります。これが大きいほうが誤審が少ないことになります。一般的には適合率と呼ばれているものですが、わかりやすいように誤審率の反対とここでは呼ばせてもらいます。

③事実から予測の正確性をみる:(TP)/(TP+FN)
先ほど偽陽性(FN)は見逃しだといいましたが、②と同じように見逃し率の反対で、見逃さなかった率です。こちらも大きい方が望ましいです。一般的には再現率と呼ばれているものですが、わかりやすいように見逃し率の反対とここでは呼ばせてもらいます。

では、②と③どちらかを選ばなければいけない場合、どちらを大切にするのかという問題が出てきます。というのも、FPとFNはトレードオフのところがあるからというのが私の認識です。どちらも下げるには技術・科学的なイノベーションが必要になりますが、怪しいものをどっちと判断するかの基準を変更することによってトレードオフできる部分があると考えています。

たとえば、コロナの当初、また、病院がないというような緊急の場合であれば、誤審で陽性といってしまって、本来陰性だった人を隔離してしまうことと、本来陽性の人を陰性といって普通に外出されてしまうことの社会全体のリスクを考えた場合、誤審のリスクをあげても怪しい人は外に出ないようにとしたほうが感染は抑えられるはずです。(本来陰性の人が病院にかかってしまうという逆のリスクもありますが、、だからトレードオフなんですが)

ちなみに、FPやFNはどうやって判断するのっていう疑問を持つ方もいるかもしれません。これはもちろんわかる場合と分からない場合がありますが、後程の検査などでわかったりします。コロナの場合だと感染した人は抗原検査で数値が上がったなど(かかった後、事後的に上がる数値を見たり、)、行動のコンバージョンの場合は何日以内に行動したかどうかなどの条件で判断できたりします。

ここからよもやま

実は、冒頭の高校生の発表を聞いていると、この②の結果が悪く、②の成績が良くなるのは、世の中の有病率が上がった時だけだということで、この予測方法は良くないのではないかというロジックになっていたのです。

※もちろんこの高校生の発表はとっても面白かったし、高校生でここまで調べ上げるのもすごいなというのは非常に感銘を受けました。指導する方がもう少し統計とか知っていればもっと良くなったのではという感想です。

ある意味その解釈は正しいというかその通りなのですが、それで片づけてよいのかという話に、ここから少し話を発展させていきます。条件付き確率の話です

②や③は誤審率(の反対)や見逃し率(の反対)だといいましたが、これって統計学的には条件付き確率というものになります。

個人的にはこの本がおすすめなのですが、面積で考える方法です。

仮に99%で正しく予想できる検査方法があったとしても、A仮に10000に1人しか真の陽性がいないくらいレアな場合、とB:100人くらいいる場合を考えてみます。

Aのケースの場合、1万人の中に陽性1人、陰性9999人が存在していて、それぞれ99%で正しい予測ができるとすると、
陽性者 1人 の99%を正しく予測。TP:1,FN:0 
残りの陰性9999人の99%を正しく陰性と予測。
FP:100人 TN:9899 (陰性者を間違えるので偽陽性)
※わかりやすく若干の四捨五入しています。
→ ②の計算すると TP/(TP+FP)なので1/101なので だいたい1%です。

同じくBのケース
1万人の中に陽性1人、陰性9999人が存在していて、それぞれ99%で正しい予測ができるとすると、
陽性者100人 の99%を正しく陽性と予測→TP:99,FN:1 (陽性者を間違えるということは陰性と判断して間違うので偽陽性:FN)
残りの陰性9900人の99%をただしく陰性と予測→FP:198人 TN:9801 (わかりやすく若干の四捨五入しています。)
→ ②の計算すると TP/(TP+FP)なので99/297なので だいたい33%です

このように検査の精度が変わらなくても、検査する人のなかの真の割合次第で②の結果は変わってくることがわかります。なので、②の結果が悪いから検査そのものがダメだというわけにはならないものです。今回の病気の診断などのようなものは個人的には②よりも③を重視したほうがいいと思っています。場合によっては③のほうが数字がとりにくいということはあるので、理論的な話になることもあります。

くわえて、③を下げられれば、本来早く治療できたはずの人ができないというケースを避けられるからです。この辺もいろいろ考え方はあるところかなとは思うので、ご意見等あればぜひお聞きしたいなと思っています。

おまけ タイトルを考えてもらいました。

うーん依頼の仕方が悪い。

ここから先は

0字

この記事は現在販売されていません

ここまで読んでいただきありがとうございます。 スキを押していただけると嬉しいです。 フォローしていただけるとさらにうれしいです。