ltmパッケージの精度検証 〜Rで項目反応理論〜

Rで項目反応理論を適応したいときに使用されるltmパッケージの関数の精度を検証したくなったので、項目数を30個と300個の場合でシミュレーションをして精度の検証をしてみた。

結果から述べると、30項目でもかなり高精度な推定ができていることが確認できた。項目数を300個に増やした場合の推定精度は、設定した困難度の最小値と最大値付近で、低下してることが確認できた。しかしこれは、その付近の能力値の人数が相対的に少ないことから生じていると考えられる

シミュレーション手順

  1. 識別力と困難度を固定した上でダミーデータを生成する

  2. そのダミーデータに対して、ltmパッケージを使用して識別力と困難度を推定

  3. 手順1と手順2の識別力と困難度を比較し、評価指標を計算する

上記のシミュレーションを項目数を「30」の場合「300」の場合で実行し、それぞれの評価指標を比較することで、ltmパッケージの検証を行った。

パラメータの設定

今回設定したパラメータは下記の通り。
項目数:30 or 300
識別力:0.5〜1.5の範囲で項目数に応じて等間隔になるように設定した。仮に項目数が3個であれば、その識別力は「0.5, 1.0, 1.5」となる
困難度:-2.0〜2.0の範囲で項目数に応じて等間隔になるように設定した。
能力値の分布:N(0,1)
サンプルサイズ:10000(人)

項目数が30個の場合の結果

真値と推定値の散布図
項目30の評価指標

項目数が300個の場合の結果

真値と推定値の散布図
項目300の評価指標

結果の考察

項目数が増えるにつれて、識別力と困難度の推定精度は低下しているが、困難度の方がより精度が低下している。その落ち方は、困難度については、-1.5付近では過少推定され、+1.5付近では過大推定されるている。

つまり簡単な問題は、設定した難易度より簡単な問題として推定されたのに対して、難しい問題は、設定した難易度より難しい問題として推定されたことを意味する。

能力値の分布は標準正規分布を仮定しているため、「-2」や「+2」付近の受験者は相対的に少なくなる。このことが困難度の推定結果に起因しているのだろうか。
しかし一様分布は実際のテストを考えると、少し気持ちが悪い。大抵のテストの受験者は平均を中心とした正規分布になるから。
分布の過程は変えずに、かつテストバンクを作ることを想定した項目数が多い場合にも推定誤差の偏りを無くす方法はないものか。。
続く。。。。

次回の検証

  • IRT関係のパッケージは50個近くあるため、パッケージを変えて同様の検証をする

  • 能力値分布のパラメータを変更して検証

  • 真の能力値と推定した能力値の推定誤差の検証。(結局のところ、これが上手くいってれば、項目母数の推定の偏りは問題にならない気がする)

  • 点双列相関は識別力を表現できているのか?~点双列 vs 回帰の傾き~

  • 困難度は一様の方がいいのか?識別力は高ければ高い方がいいのか?--項目母数の分布が推定精度に与える影響--

  • どの問題に正答すれば、科目の理解度は上がるのか?~潜在ランク理論 × 決定木分析による設問の正誤と理解度の可視化~

  • 学校間で能力値に差がある場合の分析~マルチレベルIRTをやってみよう~

この記事が気に入ったらサポートをしてみませんか?