見出し画像

データの信頼区間を求める (MATLAB使用)


社会人になり、分析関係の仕事をする上で一番身に染みて感じたことは、100%正確な分析は不可能であるということ。
全てのデータを集めることもできないし、集めたデータも必ずしも正確とは限らない。集まったサンプルの中から分析した結果がどのくらい信頼できるのか、
分析において肝になるのはここではないかと思う。




信頼区間はなぜ必要?

信頼区間 (Confidence Interval)は、分析結果の精度を知るための統計科学的な推測法であり、パーセントで表す。


例えば、
国民の購買意識アンケート調査を実施する際に、全国民からアンケートを取って回収するというわけにはいかない。

そのような調査では、サンプル調査をして全体を推測していくことになるが、その際に、サンプル調査の結果(例えば平均値)は母集団全体の結果とは誤差が発生することが予想される。
その真の母集団の平均値がサンプル調査の結果及びその±誤差の区間のことを信頼区間という。

信頼区間95%の場合、95%の確率で真の母集団平均値が信頼区間の中に含まれるということになる。(その場合、誤差は±1.96。正規分布表から簡単に求めることができる。)



ここからは、具体例とともに、どのように計算していくのかを見ていく。

具体例で理解する


例:
ある機械が瓶に油を充填し、瓶の平均内容量が 250g に近くなるように調整されるものとする。
充填物の重量を確率変数Xとし、Xの分布を未知の期待値μと既知の標準偏差σ = 2.5g の正規分布と仮定する。機械が適切に調整されているかどうかを確認するために,油の入ったボトルn = 25本を無作為に選び,ボトルの重量を測定すると、ボトルの重さはX1, ... X25で、Xからの無作為抽出である。


期待値μを得るには、推定値を与えれば十分である。
適切な推定量は標本平均で表す。

(μ)‾ = (X)‾ = 1/n ∑Xi   (i= 1 to n)

*‾: 平均の意味


x1、...x25のサンプルを取った結果、平均は次のようになったと仮定する。

(x)‾ = 1/25 ∑xi   (i= 1 to 25)
       = 250.2


ここでは、標本平均を (x)‾ としている。この x は真の平均値 μ とは異なり、単なるサンプルで、また別の25本のサンプルを取れば、250.4g や 251.1g といった値が出ることは容易に予想される。

*標本平均: 一部のサンプルを元に計算した平均値
*真の平均値: 母集団全体を元に計算した平均値。(ほとんどの調査では、母集団全体のデータを集めることは不可能なので、標本平均から推定していく。)


しかし、瓶の内容量の平均が 250g に近いとすれば、標本平均値が 280g になるのは極めて稀である。標本平均の観測値250.2の周囲には区間があり、母集団の平均値がこの範囲にあれば、観測されたデータは特に異常とはみなされないだろう。
このような区間をパラメータμの信頼区間と呼ぶ。


正規分布する標本を元に標本平均 (x)‾ を正規分布し、標準誤差を持つことを考慮すれば、同じ期待値 μ のエンドポイントを決定することができる。

σ/√𝑛 = 2.5/√25 = 0.5 (g)

*この値はメーカー保証の一部の元となる。


確率変数 (x)‾ が正規分布 N(µ,σ) に従う場合、正規分布 N(0,1) とすると以下の式で標準化することができる。

Z = ((x)‾-µ) / (σ/√n)

すると、標準化した正規分布の両端を-zとzとし、信頼係数
確率P(-z ≦ Z ≦ z) = 1- α = 0.95 となる。


つまり、5%の確率で (x)‾ が正規分布の範囲から外れている可能性があり、標準正規分布においては上側2.5%、下側2.5%となる。


この z をMATLAB等で計算すると、

Φ(z) = 正規累積分布関数 normcdf(Z ≤ z) = 1- α/2 = 0.975

z =Φ^-1(Φ(z)) =Φ^-1(0.975) = 逆正規累積分布関数 norminv(0.975) = 1.96
(正規分布表からも確認することができる。)

*正規累積分布関数: 正規分布のうち、横軸を左から見ていって、その地点より左にどのくらいの割合のデータが存在するかを表した関数。

そうすると、実際平均のμは、
0.95 = P(-z ≦ Z ≦ z)
= P( -1.96 ≦ ((x)‾-µ) / (σ/√n) ≦ 1.96 )
= P( (x)‾-1.96 *0.5 ≦ µ ≦ (x)‾+1.96 * 0.5 )
= P( (x)‾-0.98 ≦ µ ≦ (x)‾+0.98 )

従って、信頼度 0.95% で μ は信頼区間にあるとすると、
(x)‾-0.98 ≦ µ ≦ (x)‾+0.98 にあるといえる。

(x)‾ には、既に求めた標本平均 250.2 を近似値としてあてはめると、
信頼区間95%で実際平均µは、249.22 ≦ µ ≦ 251.18 に含まれる。





ロンドンでレ・ミゼラブルのミュージカルを観に行った。

ミュージカルは初めての経験で、
正直なところ、ミュージカルよりも映画の方が映像や舞台小物等もろもろしっかりしていてリアルだから単なる経験と思ってあまり期待していなかったのですが、良い意味で期待を裏切ってくれました。

ミュージカルってすごい。
指揮者が舞台を見ながらオーケストラを指揮し、演技や歌に完全に合わせて生演奏をし、演者も演技をしながらかなり難しいリズムなのに狂いなく歌を歌う。

そして、圧巻の声量、、物語ピークでの合唱は鳥肌が立つほど感動し、人の歌声の美しさを知った夜でした。

この記事が気に入ったらサポートをしてみませんか?