心理テストの『信頼性』と『妥当性』の違い

Oki_Y

2021年8月14日 20:39

テスト理論は心理尺度や学力テストの開発を基礎づける理論的なフレームです。テスト理論の中で最も基礎的であると同時に、最もわかりにくいのが信頼性と妥当性という概念だと思います。

大雑把に、信頼性とは

信頼性：スコアに占める真値の割合

だとされます。妥当性は

妥当性：心理尺度やテストが測りたいものを測っているか

ですが、これは

妥当性：テストのスコアと真値との関連性の高さ

といっても、それほど外れてはいないと思います。
ここでは、信頼性における『真値』と妥当性における『真値』は同じなのか違うのかということを考えてみます。
実は、このことが信頼性と妥当性の理解が混乱しやすいポイントになっており、この部分を整理して捉えることが信頼性と妥当性を考える上でのポイントになると考えています。

話を明確にするために、信頼性の文脈での真値を『真値R』、妥当性の文脈での真値を『真値V』とします。『真値R』と『真値V』は同じものでしょうか。それとも別物でしょうか。

先に結論を書くと、これらは別物なのです。少なくとも、そう考えたほうが理解しやすい気がします。具体的な例で、そのことを見ていきたいと思います。

信頼性は高いが妥当性が低い心理尺度

研究者Aが『外向性』を測定する心理尺度を開発したいと考えたとします。ただし研究者Aは"成人の『外向性』はその人の身長の高さに比例する"という強い信念をもっており、『外向性』の検査として

あなたの現在の身長は何センチですか

という1項目だけで構成された心理尺度を開発しました。
この『外向性』尺度の信頼性と妥当性について考えてみます。
研究者Aの開発した『外向性』尺度の信頼性係数は、たとえば再検査法でこれを推定すると1.0に近い極めて高い値になるでしょう。
1項目だけで構成されていることが気になるなら、身長について色々な角度から質問する項目群（ex. 『私の身長は高い方だ』『よく人から背が高いですねと言われる』…）を用意して、アルファ係数を求めても構いません。その場合にも信頼性係数の推定値はかなり高い値を示すでしょう。
一方、妥当性は（研究者Aの信念はともかく、客観的には）かなり怪しい。

信頼性が極めて高いにも関わらず、妥当性が低いケースがある、ということはそれだけで先程の『真値R』と『真値V』は別物である、という強い証拠になります。

そうなのですが、ここでそれぞれの真値について、もう少し詳しく検討してみることにします。
上の例の場合の『真値R』は何かと考えると、これは再検査法において2回答された身長の個人内の平均値のようなものだと思われます（真の身長を表している必要すらない）。
自己申告された身長の信頼性が高いのは、身長が短期間には変化しないこと、多くの人が自分の身長をある程度正確に記憶しており毎回大きく違う値を言ったりしないことが要因です。当然ながら、この場合の『真値R』は測定対象の概念である『外向性』とは通常何の関係もありません。

『真値V』つまり、妥当性概念における真値はどうかというと、研究者Aの例においても、こちらは個人の『外向性』の傾向を表していると考えられます。言い換えると、仮に個人の『外向性』を正確に診断する既存の検査法が存在するならば、そのスコアが『真値V』です。

この例でわかるように、『真値』という場合の通常の語感に近いのは妥当性における真値=『真値V』のほうで、信頼性の文脈では『真値』という言葉が特殊な意味で使われている。このことが、信頼性と妥当性の関係をわかりづらくさせているように思えます。

弓矢の例

よく信頼性と妥当性の説明の際に、弓矢の例を出して、"矢が常に同じ方向に飛ぶことが信頼性、的に当たることが妥当性"という表現が使われます。
この例は、実は信頼性と妥当性の関係をとても上手に説明しているのですが、私自身は、かなり長いあいだ何が言われているのか把握できず、モヤモヤとした感じで接してきました。

弓矢の例が示すように、信頼性と妥当性には関連性があるのですが、そのことは後で勉強することにして（この点についても、いずれ書きたいと思います）まったく別モノだという地点からスタートしたほうが、スッキリするのではないか、というお話でした。

この記事が少しでも参考になりましたら幸いです。

普段、テスト理論とよばれる統計的な手法を応用した学力テストや心理尺度の開発、マーケティングデータの分析、社会人の方向けの統計の教育などに取り組んでいます。こちらのページに、統計やデータサイエンス、テストの開発についてよくいただくご質問に対する説明や、自分自身が疑問に感じた事柄を少しずつシェアしていきたいと思います。

この記事が気に入ったらサポートをしてみませんか？