“良い”テストについて考え続けている
「テスト」と聞けば,どんなものを想像するだろうか。
世間には、いろいろなテストがある。日本には独特なテスト文化がある。その文化について図にしてみた。
心理学では、「心理テスト」(心理尺度)をよく使う。
心理テストを作る上で、そのテストの品質を評価し、ある心理状態を測定できるかどうかを検証することが求められる。
この記事は、「テスト」の考え方について簡単に整理したものである。
テスト理論
テスト理論とは、テストを科学する学問分野である。
テスト理論の目的は、「テストの標準化」である。
テストの標準化には、①テストの尺度化,②テストの等化がある
テストの尺度化は、「テストの品質を評価し,能力を測定するために必要なモノサシを作る手続き」である。
テストの等化は、「テストの品質を複数のテスト間で統一するために必要な手続き」である。
テスト理論は、テストの性質や,そのテストを受けた受検者の状態を知るために役立つ。
テストの尺度化
テストの尺度化とは、モノサシ作りのことを意味する。つまり、テストの統計学的な性質、品質、性能について吟味し、能力を測定するためのモノサシとしてどのように機能しているかを調べることである。
テストにおける「測定」「査定」「評価」
「測定」とは、査定における1回1回の行為である。
「査定」とは、現象を把握し,理解することである。
「評価」とは、査定で得た情報が,現象に対してどのような意味を持つのかを判断することである。
「測定」「査定」「評価」のイメージは以下のような感じである。
心理学のように、客観的事象ではない「人工的な事実」を扱うソフトサイエンスでは、現象を知るための測定・査定よりも、行動立案・政策立案といった「評価」の方が重要であると言える。
古典的テスト理論
英語力のテストの信頼性(再現性)
→1回目と2回目のテスト得点が,完全に一致することはほとんどない
例えば,1回目のテストは体調が悪かったため,2回目のテストは記入ミスがあったためなどの要因もある。
→英語力から予想される得点よりも大きくなったり小さくなったりする
観測されるテスト得点「𝑥」は,以下のように考えられる
𝒙=𝒕+𝒆
𝑡 (真値):受験者の能力から予想される得点
𝑒(測定誤差):能力とは関係ない要因(体調不良や記入ミスなど)で生じる得点のブレ
※テストの信頼性=𝑥の中の𝑡の割合
つまり,𝑡 (真値)の部分を測定し,𝑒(測定誤差)の部分を減らしたいのである。
ただし,古典的テスト理論には以下の2つの問題点がある。
1. 標本依存性
困難度や識別力といった項目に関する指標は,受験者集団に依存する
2. 項目依存性
テスト得点といった受験者の能力に関する情報は,テスト項目に依存する
これらの問題点を解決するテスト理論として,近年は,項目反応理論などのテスト理論を使ったアセスメント開発が行われている。
テストの意味
テストには以下の3つの文脈がある。
1. 測定の文脈
受検者(対象者)の心理量(能力,学力)を測定するもの
2. 説明の文脈
現象がどのように存在しているかを説明するもの
3. 存在の文脈
テストの存在によって影響を与えるもの
本当に良いテストは,地域や社会にいる人の能力を向上させるのだ。
テストの開発者は、そのテストが持つ社会的機能を見る必要があるだろう。
参考書籍
この記事が気に入ったらサポートをしてみませんか?