居酒屋の小話:テストが47%取れたと確信できるなら、単位は取れると期待できるという話

以下の話は居酒屋とかでごたごた話す話の延長であり、厳密性を大きく欠いている。きっかけは落単しそうになった授業で、テストの形式だけ事前に知らされていたので、最小の努力で単位を取るにはどうすればいいのか考えたら結果である。この話、というか、計算を考えるのが楽しすぎて、その授業はしっかり単位を落としてしまった。まともな学生はきちんと勉強することをお勧めする。

全て4択問題で構成されているテストを考えてみる。4択問題とは、4つの文章のうち1つだけ真偽が反対(1個だけ正しいとか)なものを選んで答えるという問題。

もし完全にランダムに4択問題を選ぶとするなら
全体の1/4の割合は正解できる

テストの問題のうち、確信を持って正解だと答えられる割合をaとおく。
すると、正解できる割合の期待値(E(a)とする)は

$${E(a)=a+1/4(1-a)}$$
として表せる。
$${a}$$、これは普通に確信を持って正解できる割合を表す
次に$${1/4(1-a)}$$とは、確信を持って正解できない問題のうち、適当に選んでも当たる部分を表している。(1/4の割合は適当に選んでも当たってしまうので)

ということはテストの点数の期待値は
$${(満点)E(a)}$$
として考えられる。

ここまでが前提

例えばある人が全体の60%の問題に正解できたとしよう。
この時
$${E(a)=0.6}$$
が実現したと考える
$${E(a)=a+1/4(1-a)=0.6}$$
であるから
$${a=7/15}$$
より、この人が確証を持って正解できた割合は全体の47%だと考えられる。

この結果から、47%の問題を確信を持って答えられたなら、テストが完全に4択である場合、6割取れていると期待できる

次に、全体の90%の問題に正解できた人を考える。
この時同様に
$${E(a)=a+1/4(1-a)=0.9}$$
と考えて
$${a=13/15}$$
より、
この人が確証を持って正解できた割合は全体の87%くらい

すると、30%の得点差に対して、40%確証を持って正解できた割合が違うことになる

逆に、1%得点を上げるには、1.33%程度確証を持って正解できる問題の割合を上げる必要がある。

さらに言えば、1%確証を持って正解できる問題の割合を上げることで、0.75%の得点を上昇させることができる。

例えば満点が100点のテストなら、1点上げるには追加で1.33点分の問題を確証を持って解けるようにする必要があるし、1点分の勉強は得点を0.75点上昇させると考えられる。

勉強した結果は0.75倍されて得点に反映されるという感じ。

1.もっと一般的に考えてみたい
4択問題だけでなく、テスト全体をランダムに選んだ時に$${P(x)}$$の割合が正解できるとする

この時
$${E(a)=a+P(x)(1-a)}$$
である。(先ほどの例だとP(x)=1/4だった。)
$${E(a)=(1-P(x))a+P(x)}$$
と式変形できる。さらに
$${a=(E(a)-P(x))/(1-P(x))}$$
である。
つまり、1%得点を上げるには、追加で
$${P(x)/(1-P(x))}$$
の割合の問題を確証を持って解けるようにすればいい。

特にP(x)がほぼ0に近づく時、(つまり、ランダムにいれてもほぼ正解できない時、記述問題とか)
この時
$${E(a)=a}$$
つまり

1%の得点を上げるには1%の割合の問題を確証を持って解けるようにする必要がある

ということになる。
このように考えると記述問題などのランダムにいれても正解がほぼできない問題というのは、勉強した結果が得点に素直に反映されるということになる。

ところで、記述問題についてもっと考えてみたい。難しい記述問題はランダムに答えて満点である確率はほぼ0である。したがって
$${P(x)=0}$$
である。
すると、
$${E(a)=a}$$
となる。
が、実際には、このaとE(a)は一致しないだろう。なぜなら、確証を持って答えられた割合に追加して部分点をもらえる可能性があるからである。しかしながらP(x)はどうしても0か0に限りなく近い値である。なぜなら、ランダムに答えて満点である確率はほぼないからである。

$${E(a)=a+P(x)(1-a)}$$

$${P(x)(1-a)}$$
とは何を表しているのか?もう一度考えてみる。$${a}$$は確信をもって正答できる割合であった。$${P(x)(1-a)}$$は、確信を持って正答できないが、問題の構造的に得点できてしまう部分である。$${a}$$をその人の実力とするならば、$${P(x)(1-a)}$$とは問題の構造による誤差割合である。
ここから先、部分点というものを考える。部分点とは何を表しているのか。
さらに言えば4択問題であったとしても、2択まで絞り込める時、得点の期待値は2択問題と等しくなるはずだ。
予測される得点からの変動を扱う必要性を感じ始めた。

2.部分点をどう捉えるか
得点というものを新しい方法で分解してみる

E(a)というのは見込める最小得点を表している。つまり、aという割合は確証を持つが、他の割合に関しては全てを諦めて回答する場合を考えている。実際にはいくらかの割合はなんとなく確証を持って回答でき、これが部分点を持つ。

現実に得点できた割合をMとしよう。

$${M=a+Q(x)b+P(x)(1-a-b))}$$
と定義する。
ここで
$${b:確証は持てないが根拠を持って回答できる割合}$$
$${Q(x):bのうち、実際に得点できた割合}$$
である。
すると
$${M-E(a)=b(Q(x)-P(x))}$$
となり、つまり、予測値との誤差はb(Q(x)-P(x))として表される。
ここで、
$${a+b=1}$$
である時
$${M=a+Q(x)(1-a)}$$
である。なんか似たような形になった。a+bが1であるというのはテストの全ての問題に対してなんらかの根拠を持って回答できたということになる。
難しい記述問題の場合(P(x)=a=0となるような場合)
$${M=bQ(x)}$$
となる。
というかaも大概主観的な割合とも言えなくもないので、a=0としてみると
$${M=Q(x)b+P(x)(1-b)}$$
と考えることも不可能ではない。
M,a,P(x)は観測可能なので、b,Q(x)の関係式がわかる。

以下の議論はあくまで関係の方針を示すものでありまだ考えがまとまっているとは言えない話である。
3.テスト作成者からの観測
ちな、bはテストを終えた受験者に何点取れたと思いますか?と問いかけることによって観測することができる。
この時、逆にaは観測できないが、a=0として考えてしまえばいい。
するとQ(x)が計算できる。このQ(x)はテストの難易度とどう関係があるのか?
テスト作成者側から見たQ(x)は、回答者が根拠を持って回答してきた割合のうち実際に得点させてあげる割合である。Q(x)は採点者が握っている部分である。
同じテストを一定の基準に沿って採点した場合、Q(x)は安定するはずであるが、同じテストを異なる基準で採点した場合、Q(x)はブレるはず。(bは一定になるはずなのに対してMがブレるため)
したがって採点の妥当性を測定するのに使える。

E(a)はテストの得点の最小値を表すのに利用できる。aはテスト作成者からある程度コントロール可能であるので、テスト作成者から見たE(a)は、大きいほど簡単なテストであると考えられる。
では、最大値として予測できるのはどういう値かというと、Q(x)=1の時、つまり、根拠をもってしたが完答できたとは言えない回答が全て正解であった場合である。
この時
Mの式から
$${max(M)
=a+b+P(x)(1-a-b)
=E(a)+b-P(x)}$$
である。
最大値と最小値の和を1/2した値を難易度の指標として使ってみる。
すなわち
$${E(a)+1/2(b-P(x))}$$
という値である。これはE(0)=P(x)=0になったとしても0にはならない。ただちょっと渋いのがこの時1/2bになって、予想がでかい方が難易度がデカいとなる。
ので、
1/Q(x)を使います。なんかいい感じに表してるから。ちょっと理由については話すと劇長くなる。

テストを作る側は全体に対するa,b,P(x),Q(x),Mというものを操作するように作問することで目的の値を実現させることができる。現実的に操作しやすいのはa(易問),P(x)(問題構造)とQ(x)(採点基準)である。M(実際の正答率)を先に設定する場合が多いか。
(これらの値は全て0-1の範囲であるので、かなりの制約があることに注意)
例えば、得点の平均値をM=0.6としたい場合で、容易な問題をa=0.2与えるとする。
この時
E=2/10+P(x)(8/10)
と表せる。
難易度を上げながらテストの実際の得点割合Mを0.6に保ちたい。
例えばE=0.3を与えてみる。
するとP(x)=0.08より
0.6=0.3+b(Q(x)-0.08)
このとき、bは0より上1以下に注意して
Q(x)=0.48とすると(つまり、根拠をもって答えた部分の48%を得点にするような採点基準)
0.3=b(0.4)
より
b=75%
となり、つまり、75%の問題を根拠を持って答えてもらえるようにすればいい。そして、a=0.2より20%の問題は容易な問題にして、ほぼ確実に正答したと考えてもらう。
ということは、20%が容易な問題、75%が中程度の問題、5%が難問というテストにおいて、採点基準が0.48(曖昧な回答に48%の部分点をあげるような採点基準)、Eが0.3であればこのテストの平均点は60%になる。
このテストの難易度は
1/0.48=2.083....である。


現実のテストにおいては、問題の難易度別の構成はテスト制作者が決め、Q(x)は採点者が決めるとも言える。採点には一定の基準が定められて、Q(x)は完答でない点数の総得点割合(部分点しか取れてない問題の得点の割合の足し算)として、観測することになるのでは。
すると、難易度が定まってテストの評価ができる。特に、難しい記述問題でa=P(x)=0なら
難易度はb/Mとなる。

自己採点との関連性について
自己採点の得点割合をM1とすると
$${M1=(a+b) q(x)}$$

4.複合テストの予期得点割合
現実的には、全部記述だと受ける人数が多いと採点が面倒くさいという問題があるので、選択問題と記述問題を併用する。
複合テスト問題として以下のような問題配置と配点を与えてみる
1.2択問題(20点)
2.5択中2択問題(20点)
4.記述問題(40点)

このテストの得点期待値Eを考える。xを大問だとして、P(x)を与えると
1.P(1)=1/2
2.P(3)=1/(5C2)=1/10
3.P(4)=1(ほぼ1なので便宜上1とします)

$${E=20E(a)+20E(b)+40E(c)}$$
a,b,cは各大問の確証を持って回答できる割合

と考えられます....

この記事が気に入ったらサポートをしてみませんか?