信号検出理論の説明（type 2とmeta-d'）

2023年3月27日 23:28

以前type 2についても書こうとか言っておきながらしばらく放置していた。

自分の頭の中の整理も兼ねて，type 2とmeta-d'（←こいつが面倒）について書こうと思う。もちろんざっくりと。

type 2 taskとは？

SDTについては既知のものとして進めていきます~~（また書くの面倒だから）~~。

type 1 taskがtargetの有無を判断するものだったのに対して，type 2 taskはその判断に対する確信度を評価するもの。

「targetがあった（← type 1）。そしてこの判断は正しいという自信がある（← type 2）」みたいなイメージね。

実際には確信度を「低 or 高」の2値で判断したり，「(低い)1 〜 6 (高い)」のようなスケールで評価したりする。

はい以上。これだけ。

（前回type 1ではtargetって書いたっけ？signalとかstimulusとか色々言得こともあるけど，まあ対象は同じものだからお気になさらず）

type 2は何に使うの？ → メタ認知能力を見るため

この確信度評価がどう扱われるのかというと，特に心理学の領域においては「メタ認知」能力を測る際とかに使うんだよね。

メタ認知というのは認知の認知，つまり自分の認知を一歩離れたところから観察するというもの。セルフモニタリングとも言えるかな。

さてさて，これをSDTに基づく手法で調べてみると，メタ認知能力が高い人はtype 1 task（targetの有無の判断）の結果が正解の試行では確信度を高く，誤りの試行では確信度を低く評価することになる。

ここで言うメタ認知能力が高いということは自分の判断の正誤を自分の中で区別できているということだからね。

（この部分で「これって認知の認知じゃなくね？」と思った方へ）
これは自分が正誤判断を行う認知プロセスをモニタリングしていることになるから，これも立派なメタ認知なのだよ。

日常生活での例を考えてみると，ある犯罪現場を目撃したとして，後ほど警察から複数人の写真を見せられて「この中に現場にいた人はいますか？」と聞かれたとする。

メタ認知能力が高ければ「絶対この人です」とか「この人は確実にいませんでした」とか言えるし，その証言は正しい可能性が高い（可能性を高い・低いというのは誤りだという意見もあるけど，ここではニュアンスが伝わればいいかなということで華麗にスルー）。

メタ認知能力が低ければ「多分この人だったような…」のような曖昧な証言をするだろうし，仮に「絶対この人です」と言ったとしても実際はその人じゃなかったとなれば，やはり自分の判断の正誤の区別ができていないということが示される。

じゃあどうすればメタ認知能力がわかるのかについては以下に続く（けど順番に最後まで読んでね。見出しの部分だけで判断しないように）。

① 正誤判断の結果と確信度との相関を見る

最も単純な方法は，正誤判断の結果とその確信度との相関を見ること。

例えばtype 1 taskでの正解を1，誤りを0とすると，（当然何試行もやるので）[1, 0, 0, 1, 1, 1, 0, 1, …]といったベクトルができる。

各試行での判断に対して確信度の評価をするわけだから，高確信度を1，低確信度を0とすれば，上と同様に[0, 1, 0, 1, 1, 1, 0, 0, …]といったベクトルができる。

で，この相関を見る。この方法ではメタ認知能力を示す指標としてφを算出することになるんだけど，結局はピアソンの積率相関係数（r）を算出することと同義。

あとGという指標もあって，こっちは確信度を「低 or 高」の2値ではなく「(低い)1 〜 6 (高い)」のようなスケールで評価した場合に適用できるようにしたもの。

これは非常に簡単な方法だけど，致命的な欠点もある。

何かというと，単に相関を見るだけだとメタ認知能力とメタ認知的バイアスとを混同してしまう恐れがあるというもの。

例えば評価者がとても謙虚な人で判断の正誤に関係なく確信度を低めに評価するような場合とか，逆に自信過剰で確信度を高めに評価する傾向がある場合とかを考えてみる。

この場合は相関が小さくなるので，メタ認知能力も低いと判断される。

でもこの評価された確信度には評価者の持つ確信度判断の基準がどこにあるかが影響しているから，算出された係数（φやG）がメタ認知能力を反映しているとは言い切れない。

専門的に言えば，算出された結果はcontaminatedなんだよね。

② type 2 d'を算出する

じゃあそのバイアスを取り除こうということで，type 1でもd'はcとは独立だから，同じようにtype 2のd'を算出すればいいよねという話。

type 1 d'と同じように計算するので，type 2のHit率とtype 2のFA率がわかればいい。これら（とtype 2 Miss & CR）は次のように算出する（表1）。

type 2 Hit: type 1 Hitとtype 1 CRで確信度が高いもの。
type 2 FA: type 1 FAとtype 1 Missで確信度が高いもの。
type 2 Miss: type 1 Hitとtype 1 CRで確信度が低いもの。
type 2 CR: type 1 FAとtype 1 Missで確信度が低いもの。

表1　type 2の反応タイプ（Hit (H)，False Alarm (FA)，Miss (M)，Correct Rejection (CR)）のマトリックス

で，これでtype 2 d'が算出できました。わーい。

…で終わるわけがなく，type 2 d'にも致命的な問題がある。

何かというと，分布の仮定が満たされないというもの。

そもそもSDTでのd'の算出って，N分布とS分布が等分散かつ正規分布であることが前提なのね（ちなみにtype 1 taskが2AFCならこの仮定が満たされるとみなされる）。

ただ，type 1において等分散・正規分布が満たされた場合，type 2における2つの分布は等分散でもなければ正規分布にもならないとのこと。

つまり，type 2 d'も等分散・正規分布の下で算出されないといけないのに，この前提条件が満たされない。

だから，type 2 d'はそもそも不適切な指標だから使っちゃダメだよねーということになる。

（じゃあtype 2 A'ならノンパラメトリックだからいいんじゃないの？と思った方へ）
type 2 A'というものはないんだよね。type 1 d'もtype 1 A'も（弁別）感度を表す指標ではあるんだけど，type 1 d'がN分布とS分布との距離を示すものに対して，type 1 A'はtype 1 ROC曲線下面積と同じもの。だからtype 2 A'があったとしたら，次のtype 2 ROC曲線のことになるんだよね。

③ type 2 ROC曲線を使用する

じゃあ分布の仮定に縛られないノンパラメトリックな方法として，type 2のROC曲線を使えばいいねとなる。もちろんバイアスフリーだし。

type 2 ROC曲線下面積（AUROC2: area under the type 2 receiver operating characteristics curve）を算出すれば，これをメタ認知能力を示す指標として使うことができる。

type 2 ROC曲線の描き方はtype 1の時と同じで，例えば確信度が1–6のスケールで評価されたとしたら，まずは「1をLowで2–6をHigh」として上のマトリックスを作る。次に「1–2をLowで3–6をHigh」として同じように。次に「1–3をLowで4–6をHigh」…としていって，最後に「1–5をLowで6をHigh」として計算する。

こうやっていけば，type2のp(FA)・p(H)の座標上に5つの点を打てるので，これをつなぐように曲線を描けばいい（細かいことはtype 1 ROC曲線の描き方を調べてほしい）。

やったー。これで解決だー。

…と思いきや，致命的ではないけどまだ1つ問題が残る。

何かというと，AUROC2に限らずφもGもtype 2 d'もtype 1 taskのパフォーマンスに影響されるんだよね。

例えば，中程度のメタ認知能力を持っていたとしても，type 1 taskが簡単過ぎれば正誤判断の正答率は高くなるし，それに合わせて確信度も高くなって，結果的にメタ認知能力が高いと判断される。逆も然り。

あとtype 1のcなんてモチベーションとかでも簡単に変化するし，当然この影響も受ける。

一言で言えば，AUROC2を使ってもいいけど，type 1のパフォーマンスの影響は考慮しないとダメだよねという話。

群間比較するなら階層的重回帰分析とか共分散分析とか使えば一応はなんとかなりそうだし，先行研究でもこの方法を使っているものもないわけではない。

ただ，（やるだけなら）もっと簡単な方法も開発されているんだよね。

④ meta-d'を算出する

ということで，d'と全く同じ単位だから直接比較（比をとったり引いたり）できるmeta-d'というものが開発されました。わーい。

プログラムとかは公開されているから，使うだけなら簡単なんだけど，これがどういうものなのかを理解するのは（最初は特に）難しい。

だから，例の如くざっくりといく。

まず結論から。meta-d'って何かというと，「推定されたd'」のこと（正確には逆推定なんだけどね）。

押さえておきたいことは，type 2 ROC曲線はtype 1のd'とcによって形が変わるということ（つまり，type 1のパフォーマンスの影響を受ける）。ということは，メタ認知的にideal（完璧なメタ認知）であればtype 2 ROC曲線はその曲線下面積を最大にするように描かれるので，あとはtype 1のd'とcが与えられればtype 2 ROC曲線がただ1つに決定することになる。これはそういうものなんだよという理解でいいと思う。詳しく知りたい方はGalvinらの論文をどうぞ。

これを使ってmeta-d'を推定する。流れとしては以下の通り。
（以降type 1の指標の場合は"type 1"は省略する）

まず，ある参加者が実験に参加して，d'とcが得られたとする（observed d' & c）（図1左上）。

ここで，この参加者が仮にメタ認知的にidealだったと仮定すると，得られたd'とcからただ1つのtype 2 ROC曲線が得られる（expected type 2 ROC curve）ことを考える（図1右上）。
（無数のtype 2 ROC曲線がある中で，メタ認知的にidealだとすれば，後はd'とcがわかればtype 2 ROC曲線が1つに定まる）

実際の実験から1つのtype 2 ROC曲線が得られた（observed type 2 ROC curve）（図1右下）。

上のこと（無数の〜定まる）を利用して，このobserved type 2 ROC curveがメタ認知的にidealな人から得られたものであった仮定すると，そのd'とcを推定することができる。

この推定されたd'とcが，それぞれmeta-d'，meta-cと呼ばれる（図1左下）。

上で言った逆推定というのは，d'とcからtype 2 ROC曲線を推定できることを利用してtype 2 ROC曲線からd'とcを推定するから「逆推定」。

で，実際にはこの後meta-d'/d'（この比はM-ratioと呼ばれる）を計算して，実際のtype 1のパフォーマンスと推定されたtype 1のパフォーマンスとのズレを見る。

M-ratioが1なら完璧なメタ認知で，1より小さくなるほどメタ認知能力が低いことを表す。1より大きい場合は自信過剰だったり，確信度評価の際に自分の正誤判断プロセス以外の情報を利用していたりすることになる。

どういうことかというと，例えばmeta-d'＜d'の場合は，「見た感じd'くらいの弁別ができているようだけど，実際その人の中ではmeta-d'くらいの弁別しかできていないよね。ということは自分の正誤判断に対するモニタリングが完璧ではないことがわかるし，そのズレが大きいほど（M-ratioが小さいほど）メタ認知能力が低いことになるよね」ということ。

イメージとしては，例えば10問各1点のテストがあったとして，テスト結果は10点だったけど，実は3問は勘で答えたから実際には（頭の中では）7点分しかわからなかったよーみたいな感じ。ここでのテスト結果がd'で，頭の中がmeta-d'というイメージかなと。

ややこしいのは，実際にはメタ認知的にidealではないのに，計算の中ではメタ認知的にidealであることを仮定する点だと思う。

これは表現を変えて，「その人が持っている弁別力を100%発揮したと考える（← この分の判断はきちんと自分の中で区別ができる）」と言えばまだわかりやすいかもしれない。

どういうことかというと（複雑になるからcは置いておいて），例えばd' = 2の弁別力を持った人のtype 1 taskの結果がd' = 3になったとしたら，差分1は勘とかカンニングとか，その人の持つ弁別力以外の要素が関係したと考えられる（ここでは課題が簡単だったとかそういうのは考えない）。でも，expexted type 2 ROC curveはd' = 3の弁別力がフルに発揮された結果の形として描かれる。

とは言っても，この人はd' = 2の弁別力しか持っていないので，observed type 2 ROC curveはexpected type 2 ROC curveとは異なる形になる。

でもここで，この人が持つd' = 2分の弁別力はフルに発揮されていたと考えれば，observed type 2 ROC curveから逆推定でmeta-d' = 2という結果が得られる。

まとめると，パッと見ではd' = 3程度の区別ができたという結果だったけど，実はこの人の中ではd' = 2程度の区別しかできていなかった。でもこのd' = 2程度の区別は自分の中でもきちんと把握できていると考えられるので（← これがmeta-d'），type 1 taskの結果としての弁別力d'と逆推定された弁別力（この人が実際に持つ弁別力）meta-d'とを比較すれば，自分の判断がどれだけ区別できているのか，そのズレがわかる，というものかなと。

まとめ

SDTでメタ認知能力を測るならtype 1のパフォーマンスの影響を考慮しようねー，という話。

なんか後半ぐちゃぐちゃでわかりにくいかもしれないけど，これ結構難しいのよ…

あと個人的にはd'とmeta-d'のノンパラバージョンがあれば便利なのになーと思う。

最後に，ここまで書いておきながら，M-ratioを使ってもtype 1 taskの影響を完璧に取り除くことはできないという指摘があった気がする（何かで見た）。とはいうものの，現状ではまだこれが比較的有効なんじゃないかなー。

参考文献

Fleming, S. M., & Lau, H. C. (2014). How to measure metacognition. Frontiers in Human Neuroscience, 8:443. https://doi.org/10.3389/fnhum.2014.00443
Galvin, S. J., Podd, J. V., Drga, V., & Whitmore, J. (2003). Type 2 tasks in the theory of signal detectability: Discrimination between correct and incorrect decisions. Psychonomic Bulletin & Review, 10(4), 843–876. https://doi.org/10.3758/bf03196546

この記事が気に入ったらサポートをしてみませんか？