見出し画像

おい、DCAってなんなんだ?

今回は予測モデルの臨床的有用性を評価するためのDecision curve analysis:DCA(決定曲線分析)について勉強しました。DCAってちょいちょい使われているので要チェックだと思います。
医療分野では診断や予測を目的として、多変量回帰モデルが用いられてきました。その妥当性については、感度や特異度などの精度評価指標が用いられています。モデルの予測精度を比較するには十分なのですが、臨床的な有用性は?と聞かれると・・・???。そこで、DCAが登場しました。
2006年に発表されたDCAは、「計算方法は単純だが、理解するのは少し難しい」というデレツンな評価方法です。これまで医療分野ではあまり見ない、純利益(net benefit)閾値確率いう概念が出てくるからだと思いました。計算が単純なだけにとりあえずやってみようができてしまうので、訳もわからず、意味を誤解したりするのは怖いなと思ったので備忘録としてまとめてみました。

Decision curve analysis: a technical noteのまとめ

まずは、ざっとDecision curve analysis: a technical noteの内容をまとめてみました。このレポートをみれば、方法は理解できると思います。ただ、コンセプトのところが難解なので、『決定曲線分析とは』のところで少し解釈を加えながら、再度まとめたいと思います。

Summary
多変量回帰モデルの妥当性は,感度や特異度などの診断性能の指標を用いて評価されてきたが,特定のモデルの臨床的有用性を考慮していなかった。この有用性を測定するために広く用いられているのが決定曲線分析(DCA)である。この枠組みでは、予測モデルに関連したベネフィット(真の陽性症例を治療すること)ハザード(偽陽性症例を治療すること)相対的な価値を臨床的に判断する。

DCAのキーコンセプトは“threshold probability: pt, is where the expected benefit of treatment is equal to the expected benefit of avoiding treatment.”のように定義された閾値確率(Pt)と呼ばれる概念である。"治療に期待される利益と治療を避けることに期待される利益とが等しくなるところにある"ということからも、Ptが個人ごとに異なる。患者または政策立案者の選好(preference)を説明する。このPtを変化させて純利益(net benefit)について計算し、モデルを比較することができる。

Concept of net benefit

↑ TP=真陽性数、FP=偽陽性数、n=個体数、Pt=閾値確率
このように治療を受けた患者のnet benefitはPtの関数として表現できる。ここで意思決定者iについて、PtはPi<Ptとなるとiは処置を受けない。一方で、Pi>Ptならば処置を受ける。つまり、iが予測された確率(Pi)とPtを比較してPiが大きい時に手術を選ぶという選好性(preference)があることを前提としている。positive=0のとき、すなわちTP=0, FP=0のときはnet benefit=0になる。

↑ TN=真陰性数、FN=偽陰性数、n=個体数、Pt=閾値確率
同様に、治療を受けない時のnet benefitもPtの関数として定義できる。

↑ net benefit treated(all) = 全て処置を行なったときのnet benefit
式の展開を省略しましたがPrevalence(有病率) = Ptの時にnet benefit=0になります。

↑ net benefit overall = 全体のnet benefit

↑ おまけ。予測モデルの効用を決定するための平均確率閾値に関する偏差指数(ADAPT)があり、モデルが校正されている; Piが本当に陽性である確率に対応している場合においてを以下のような関係になる。ちょっとよくわからなかったので、飛ばします。

決定曲線分析とは

一応上の説明をざっと読んでいただけるとDCAの計算ができて、予測モデル間の比較はできるようになりました。サンプルデータでやった感じだと、こんなグラフになります。

画像1

このグラフから1. all:全ての対象者を検査する際のNet benefitはpred.simpleモデルおよびpred.fullモデルよりも低い2. pred.simpleモデルと比較して、pred.fullモデルを使用した方がnet benefitが高いことがわかります。つまり、全件検査するよりもモデルを用いた方が有用で、さらにpred.fullモデルの方が有用であると主張することができます。

ただ、解釈というか理解できているかと言われると怪しいので・・・できるだけ具体的に咀嚼した内容を以下にまとめたいと思います。この文献を参考にしていますが、かなり解釈が入っていますので変なとこがあればコメントください。

で、早速わかりにくいポイントなのですが・・・私の納得感が爆上がりしたという理由で下記の2項目についてのみまとめます。つまり、グラフのY軸とX軸の説明をします。その他の不明点については論文読んでください。

1. net benefitってのがいまひとつピンとこないのですが?
2. 閾値確率って何?

具体的な例を考えてみます。がんの予測確率を出すモデルがあるとします。このモデルを使用して、検査をするかどうかの判断に迫られているとします。この検査は身体的な負担があるようなものなので、できるだけ不必要な検査はしたくないという前提です。

1. net benefitってのがいまひとつピンとこないのですが?
そもそもって感じで、わからないですよね。net benefit(純利益)っていう指標。net benefit ≒ net profitと同じ考え方で、収入から支出を差し引いたものです。診断の場合、収入は真陽性(例:がんの発見)、支出は偽陽性(例:不必要な検査)のことだと思ってください。単純に収入-支出ではなく、ここに為替レートがかかってくるイメージです。つまり、収入-支出×為替レート。この為替レートが意思決定者の選好(preference)を反映させたものです。この為替レートは後述する閾値確率から計算されます。あーやっぱりうまく説明できないですね・・・。

2. 閾値確率って何?
モデルが1%の確率で陽性であると判断した場合には、ほとんどのケースで検査は見送られると思います。これを2%では?3%では?と変化させていき、判断が不明確になる確率が閾値確率です。仮にリスクが10 %の場合は、オッズ(=Aが起こる確率/Aが起こらない確率)は1:9なので「がんを見逃すことは、不必要な検査を行うことよりも9倍悪い」という意味になります。そして、これを選択するかどうかというのがpreferenceです。このpreferenceは個人の価値観や治療効率、検査の負担度なんかによって左右されるの個別ケースで異なります。なので、この閾値確率を段階的に変化させnet benefitを算出するとモデルの有用性が比較できるという塩梅です。

まとめ

クライアント(意思決定者)が予測モデルをサービス運用するための判断基準の一つに、現在稼働している運用と比較して優れているのか?という点が挙げられると思います。もちろん予測モデル作成前にDSがモデル精度評価指標としてプロジェクト定義書にまとめていると思います。ただ、それだけでは不十分ではないかと思います。クライアント側に納得してもらうような資料が必要なんじゃないかと。モデルの精度を提示するだけでは不十分で、だからどうなるまでを示さないと意思決定者は判断できません。説明する際に数値だけでなく、背景や意味なんかをできるだけわかりやすく、具体的に説明する必要があると考えています。
そんなことから、DCAのようなわかりやすい指標が役立つと思いました。ただし、一見わかりやすそうだが、しっかり説明できるか?みたいな問題にぶち当たったので、今一度まとめ直す必要があるなと思い立ちました。

なので!!ものすごくニッチですが、これからも何か説明が必要なものができてた時は、わかりやすい資料としてnoteをまとめていきたいと思います。ここから、発表資料作った方が数百倍はやい。同じ境遇の皆さんの助けになれば嬉しいです。

この記事が気に入ったらサポートをしてみませんか?