【読了】統計学入門(ソシムのデータサイエンス③)


注意

まとめてはみたものの、以下の点が混乱しているので誤りがありそう
・最尤推定とベイズ推定の違い
・ベイズ検定

はじめに

統計学を学ばなければ、データ分析しても、
・分析結果の解釈を誤る
・初歩的な分析しかできない

第1章 統計学とは:データ分析における統計学の役割

1.1 データを分析する

・統計学の数学的基礎は確率論(ばらつきや不確実性を定量化できる)

○データ分析の目的
・要約:記述統計
・説明:相関関係と因果関係、仮説検定
・予測:推測統計、回帰、機械学習

1.2 統計学の役割

1.3 統計学の全体像

○記述統計
○推測統計
・統計的推定(statistical inference):点推定、区間推定
・仮説検定(statistical test)

第2章 母集団と標本:データ分析の目的と対象を設定する

2.1 データ分析の目的と興味の対象

目的によって、適用するべき分析方法が異なってくる

○目的の例
・施策の効果の有無、効果の大きさを知りたい
・変数間の関係性が知りたい
・将来における量を予測したい

2.2 母集団

・性質を知りたい集団
・標本を抽出できない集団の性質を知ることはできない

2.3 母集団の性質を知る

・全数調査:記述統計を使う、コストがかかる
・標本調査:推測統計を使う、不確実性を伴う評価

・標本サイズ(n):標本集団の要素数、大きい方が推測の確からしさも高まる
・標本数:標本集団の数

第3章 統計分析の基礎:データの種類・統計量・確率

3.1 データのタイプ

・次元:変数の数

○量的変数
・離散型:人数
・連続型:身長
○質的変数(カテゴリ変数):血液型

3.2 データの分布

・ヒストグラムは可視化(分布や外れ値を把握できる)に過ぎないので、正確な理解のためには定量的分析が必要
・ヒストグラムをグラフに併記したものが、「箱ひげ図」や「スウォームプロット」

3.3 統計量

記述統計量
○代表値:必ずヒストグラム(分布の可視化)と合わせて適切なものを選ぶ
・平均値
・中央値
・最頻値
○ばらつき
・分散s^2
・標準偏差s

・外れ値
・異常値

3.4 確率

・推測統計の理解のためには不可欠
・「母集団から標本を抽出した」=「確率分布から実現値を得た」と考える

・確率変数:確率的に変動するもの、サイコロの目
・実現値:確率変数が実際に取る値、1~6
・確率密度関数:P(X)=1/6(一定)
・期待値:E(X)=3.5

・独立確率分布:P(X, Y)
・条件付き確率:P(X|Y)

3.5 理論的な確率分布

・正規分布N(μ,σ^2)
・標準正規分布N(0,1):正規分布を標準化したもの
・一様分布
・二項分布
・ポアソン分布
・負の二項分布
・指数分布
・ガンマ分布
・t分布
・F分布
・χ^2分布

第4章 推測統計〜信頼区間:データから母集団の性質を推測する

4.1 推測統計を学ぶ前に

○推測統計
・標本集団(から算出した推定量)から母集団の性質(母数で表現される)を推測する
・つまり、「得られた実現値」から「その確率変数が従う確率分布」を推測する

○無作為抽出の方法
・単純無作為抽出法
・層化多段抽出法

・母集団を代表していない(偏った)標本を抽出してしまうと、推測される母数は誤ってしまう
・どうすれば母集団を代表する標本集団を効率的に抽出できるか?という設計には、業務ドメイン知識が必要

4.2 互換区間(信頼区間)

○標本誤差
・母集団分布からランダムに標本を抽出する際に生じる、避けられない誤差
・標本統計量と母数の差分で表され、標本誤差も確率変数である
・理想的なサイコロの場合、出目の期待値は3.5である
・実際にサイコロを投げて(標本抽出して)、出目の平均値を算出すると、例えば、標本集団Aでは3.83(標本誤差:0.33)、標本集団Bでは2.67(標本誤差:0.83)、標本集団Cでは4.31(標本誤差:0.81)、…という結果が得られる

大数の法則
サンプルサイズを大きくしていくと、平均についての標本誤差(標本平均と母平均の差分)はゼロに近づく

中心極限定理(標本平均分布)
任意分布の母集団から抽出した標本集団について、サンプルサイズnが大きいとき、標本平均の分布は、以下の正規分布で近似できる
・平均:母平均μ
・標準偏差:σ/√n
よって、標本誤差の分布は、以下の正規分布となる
・平均:0
・標準偏差:σ/√n
つまり、nを9倍に増やせば、は1/3に狭まる

推定量
・不偏推定量:標本平均、不偏分散、不偏標準偏差
※標本分散や標本標準偏差が不偏推定量ではないことに注意
・一致推定量
・最尤推定量

互換区間(Compatible Interval)
「95%の確率で区間内に母数μが含まれている(5%の確率で区間内に母数μは含まれていない)」ことを、「95%CI」と呼ぶ
・互換区間が狭い方が、推定値の信頼度は高い
・仮説検定において、5%を有意水準α、95%を信頼度と呼ぶ
※ベイズ統計(第11章)では、母数μを確率変数として扱うことで、確信区間(Credible Interval)を導入する(伝統的な頻度統計学では、母数は確率変数ではなく「真の値」である)

中心極限定理の問題とt分布
中心極限定理には、以下の問題がある
・サンプルサイズnが大きいときにしか成立しない
・母数σが不可知で使えないため、不偏標準偏差sで代表する必要がある
これを解決するために、ギネスビール社員ウィリアムゴセットにより考案された(1908年)のがt分布である
・小さいサンプルサイズの標本集団でも母集団を推測できるようにした
・正規分布に従うデータの標準誤差はt分布に従う(母集団が正規分布でないと使えない)
・サンプルサイズnが大きくなると、t分布は正規分布に近づいていく
○t分布
・平均:0
・標準誤差:s/√n
sは測定を精度よく行うことで減らせる
nを9倍にすると、標準誤差(=互換区間)は1/3になる

第5章 仮説検定:仮説の検証とp値

・p値の意味は誤解を招きやすい、理解できてないと誤った結論を出してしまうので注意

5.1 仮説検定の仕組み

統計的仮説検定(statistical hypothesis testing)ではp値を計算し、仮説(母集団に関する仮説)を採択するかどうかを決める

データ分析のアプローチ
・仮説検証型:事前に仮説を立て、実験や調査でデータを集め、仮説を検証する
・探索型:仮説を立てず、入手したデータの傾向を掴み、仮説の候補を探す(9章で扱う)

仮説検定で扱う問題の例
・新薬(広告)に効果があるのか?
・処理群treatment group(新薬を適用したグループ)と対照群control group(偽薬を適用したグループ)を比較する
・集めたデータの標準誤差(標本平均の差)が、偽薬でも生じる程度なのか、あるいは新薬の効果で生じる程度なのかを評価する

標準誤差SEと標本誤差の違い

「標本誤差」は、まず前提として標本調査でのみ発生し、全数調査では発生しません。標本誤差は、標本の値と母集団の値との間に発生する差を意味します。
関係性としては、「標本誤差(母集団と標本の値の差)」の大きさを「標準誤差(標本分布のばらつき)」で確率論をもとに評価するということになります。

仮設検定に共通する考え方は、背理法である
・帰無仮説を棄却することによって、対立仮説を採択する
・「対立仮説を否定することによって、帰無仮説を採択すること」は論理的に誤りなので注意(9章で扱う)

p値
・帰無仮説が正しいと仮定した場合に、着目している値(例:標本平均の差)が観察値以上に極端な値になる確率
・帰無仮説が正しいと仮定した場合の着目値分布を考えて、観測された値がどれほど極端か(p値がどれほど稀=小さいか)を評価する
・p値の計算方法は、検定手法により異なる(実務的には統計解析ソフトを使って計算する)

有意水準α
・p値がどれくらい小さい場合に帰無仮説を棄却するかの基準値(確率)
・自然科学業界では、慣用的にα=0.05(5%)を使っている
・p<αの場合、帰無仮説を棄却できる(「統計的有意差が見られた」)ので、対立仮説が採択できる
・α≦pの場合、帰無仮説は棄却できない(「統計的有意差は見られなかった(N.S.=non-significant)」)、「帰無仮説は誤りではない」ことが示せただけであり、「帰無仮説は正しい(採択)」ことまでは示せないことに注意

5.2 仮説検定の実行

2群間の比較のt検定(2標本t検定)
・帰無仮説が正しいと仮定した場合の着目値:t値(「標準平均の差」を標準化した値)
・t分布:横軸はt値
・棄却域:有意水準αよりも稀な確率となるt値の範囲(2.5%に相当するt値を棄却限界値「2.5%点」と呼ぶ)
・p値:t値が観察値よりも極端になる確率

①データからサンプルサイズや不偏標準偏差などを計算し、t値(観察値)を算出する
②t分布における位置を調べて、p値を算出する
③p値を有意水準αと比較して、帰無仮説を棄却できるか判断する

「区間推定」と「仮説検定」とは表裏一体の方法
「区間推定において、母平均の95%互換区間が0を含むかどうか」と、「仮説検定において、p値が0.05未満になるかどうか」は等価
○区間推定:
・標本平均から母平均の取り得る区間を推定すること
・標本を中心に考える方法
○仮説検定:
・帰無仮説を仮定し、母集団平均を0に固定した場合に、標本平均が取り得る値を求めること
・母集団を中心に考える方法

5.3 仮説検定に関わるグラフ

エラーバーの使い方
・平均値の確からしさを示す:SEM(平均値±標準誤差SE) ※一般的、エラーバーが重なっている場合は、統計的有意差がないことを示している
・データのばらつきを示す:SDM(平均値±標準偏差SD)
・互換区間を示す:95%互換区間

エラーバーをグラフにつけた場合は、グラフのキャプションに意味を記載する
*:p<0.05
**:p<0.10
***:p<0.001
有意差がない:N.S.(non-significant)

5.4 「第1種の過誤」と「第2種の過誤」

○偽陽性(false positive
・第1種の過誤(Type1 Error)
対立仮説の誤採択:帰無仮説が正しいのに棄却(対立仮説を採択)してしまう誤り
・例:新薬に効果がないのに、「効果あり」と判断してしまう誤り
・偽陽性になる確率α:αは直接コントロール可能。有意水準αを小さくする(厳しくする)ことにより、偽陽性になる確率も減らせる。
・信頼度(1−α):偽陽性を起こさない確率(帰無仮説を棄却しない確率)

○偽陰性(false negative
・第2種の過誤(Type2 Error)
帰無仮説の棄却漏れ:対立仮説が正しいのに帰無仮説を棄却しない誤り(「帰無仮説を採択する誤り」ではないので注意)
・新薬に効果があるのに、「効果があるとは言えない」と判断してしまう誤り(「効果なし」ではないので注意)
・偽陰性になる確率β:βが直接コントロール不可能。サンプルサイズを大きくすること等により、βは小さくなる性質がある。実務的には、β=20%になるようにサンプルサイズを設計することが重要。
・検出力(1−β):偽陰性を起こさない確率(帰無仮説を棄却して、対立仮説を採択する確率)

αとβはトレードオフの関係
・過誤確率のどちらか片方を小さくしようとすると、もう片方が大きくなってしまう
・一般的には、α=0.05を使う
・βを減らすためには、αを大きくすることの他に、サンプルサイズを大きくすることでも達成できる

効果量d(effect size)
・仮設検定では、あらかじめ母集団で検出したい効果量を設定するのが理想的
・例えば、「2群間の平均値を比較するt検定」の場合、平均値の差に「統計的有意差がある」ことが判っても、その程度が極めて小さければ、薬として意味がない
 ・「2群間の平均値を比較するt検定」の場合、「d=(平均値の差)/標準偏差」で定義する
 ・ばらつき度合い(標準偏差σ)が小さいと、効果量dが大きくなる(母集団2群分布の重なりが小さくなる=分布が離れる)

理想的なサンプルサイズの算定方法
α/β/サンプルサイズn/効果量dの4数値は、どれか3個を決めると残り1個が決まる
・例えば、dが大きいと、βは小さくなる(分布が離れるため、検出力が上がる)
・なので、α/β/dを決めることにより、nを算出できる
・基本的にはサンプルサイズは大きい方が良いが、サンプルサイズが大きくなるにつれてp値は小さくなっていく(統計的有意差が出ても、サンプルサイズが大きすぎただけかもしれない)

第6章 様々な仮説検定:t検定から分散分析、カイ二乗検定まで

・「2群間の平均値を比較するt検定(5章)」以外の検定手法

6.1 様々な仮説検定

・検定手法は、データのタイプ、標本数、量的変数分布の性質により決まる
・不適切な検定手法を選択すると、偽陽性や偽陰性になる確率が高まってしまう

仮説検定のステップ
※①②が検定手法により異なる部分
①帰無仮説と対立仮説を設定する
②検定統計量を計算する
③帰無仮説が正しい仮定の下で統計量分布を考え、データから得られた統計量の位置を調べてp値を計算する
④p値を有意水準αと比較して帰無仮説の棄却可否を判断する

データのタイプ
・量的変数×量的変数:身長×体重(散布図で表せる)
・カテゴリカル変数×カテゴリカル変数:ワクチン有無×感染有無(分割表で表せる)
・カテゴリカル変数×量的変数:薬有無×血圧(棒グラフで表せる)

標本数
・1標本(1群):母集団が1つ、成人男性の平均身長は168cmか?
・2標本(2群):母集団が2つ、処理群と対照群に差はあるか?
・3標本(3群)以上:母集団が3つ以上、補正手法(多重比較)が必要

量的変数分布の性質
・パラメータで記述可能な母集団分布を仮定:パラメトリック検定、例えば、t検定は母集団が正規分布N(μ,σ^2)であること(正規性)を仮定している
・母集団分布がパラメータで記述できない場合:ノンパラメトリック検定、例えば、左右非対称、複数の山がある、外れ値がある
※パラメトリック検定/ノンパラメトリック検定の区別の他にも、群間の分散が等しいかどうかで使える検定が変わったりする(例えば、等分散でない場合のt検定はウェルチのt検定となる)

6.2 代表値の比較

1標本のt検定
・標本が仮説通りの平均値μを持つ母集団から得られたどうかを判定する
・母平均μについて仮説がない場合は、仮設検定ではなく区間推定を行う方が適切

2標本のt検定(平均値の比較) ※パラメトリック検定
○分散
・等分散である場合:スチューデントのt検定
・等分散でない場合:ウェルチのt検定
○対応の有無:「対応のある検定」の方が、偽陰性が起こりにくい
・対応のない検定:服用した被験者10人、服用しない被験者10人からデータを取得する場合
・対応のある検定:被験者10人に対して、それぞれ服用前/服用後のデータのペアを取得する場合

2標本の検定 ※ノンパラメトリック検定
各群に正規性がない場合には、t検定を使えないため、代わりにノンパラメトリック検定を使う
・ウィルコクソンの順位和検定
・マン・ホイットニーのU検定
・フリグナー・ポリセロ検定
・ブルネル・ムンツェル検定

3群以上の平均値の比較 ※パラメトリック検定
・分散分析(ANOVA):統計検定量としてF値=(平均的な群間変動)/(平均的な群内変動)を計算し、F分布上の位置を確認する
帰無仮説:3群全ての平均値が等しい
対立仮説:少なくとも1つのペアには平均値の差がある

3群以上の検定 ※ノンパラメトリック検定
各群に正規性がない場合には、分散分析を使えないため、代わりにノンパラメトリック検定を使う
・クラスカル・ウォリス検定

正規性があるかどうかを判定する検定
パラメトリック検定(t検定など)を実施する前に、正規性があることを確認する必要がある
・Q-Qプロット
・シャピロ・ウィルク検定
・コルモゴロフ・スミノフ検定

等分散かどうかを判定する検定
t検定や分散分析を実施する前に、等分散であることを確認する必要があるため使う
品質管理(分散が変化しているかに着目する)などの場合にはこれ自体でも使う
・F検定(2群の場合)
・バートレット検定(3群以上の場合、正規性を仮定できる場合)
・ルビーン検定(3群以上の場合、正規性を仮定できない場合)

※2群の母集団を比較する場合には、平均だけではなく分散にも着目するべき(例:原料Aで製造した製品、原料Bで製造した製品を比較する場合、品質のばらつきは重要)
・t検定:2群の母平均に差があるかどうか、「標本平均の差」が従う分布(t分布)を使う
・F検定:2群の母分散に差があるかどうか、「不偏分散の比」が従う分布(F分布)を使う

多重比較検定
何度も検定を繰り返すと、偽陽性の確率が高まってしまう性質がある(多重性の問題)
多重性の問題を回避するために、分散分析を行わず、多重比較検定を使う(検定を繰り返すたびに、有機水準αを厳しい値に変更する)
・ボンフェローニ検定
・テューキー検定(パラメトリックな場合):スチール・ドワス検定(ノンパラメトリックな場合)
・ダネット検定(パラメトリックな場合):スチール検定(ノンパラメトリックな場合)
・ウィリアムズ検定

6.3 割合の比較

二項検定(binominal test)
・正確確率検定の一種
・例:コイントス(ベルヌーイ試行)の偏りがないかどうか

適合度検定(goodness of fit test)
・カイ二乗検定(統計検定量にカイ二乗値χ^2を使う検定)の一種
・母集団の分布が理論確率(想定している確率分布)かどうかを調べる
・帰無仮説(例):サイコロ出目の母集団は想定している確率分布である(サイコロを60回振った時の出目は、1/6の一様離散分布を持つ母集団から得られている)
・「帰無仮説(理論確率)に基づく期待値(理論値)」と「実測値」を使ってχ^2値を算出する

独立性検定(test of independence)
・カイ二乗検定の一種
・2つのカテゴリカル変数が独立かどうかを調べる
・帰無仮説(例):血液型と星座には関連がない(独立である)
・「帰無仮説(独立)に基づく分割表(理論値)」と「実測に基づく分割表(実測値)」を使ってχ^2値を算出する
・標本サイズが小さい場合には、正確確率検定(二項検定やフィッシャーの正確確率検定)を使う必要がある

第7章 回帰と相関:2つの量的変数の関係を分析する

7.1 量的変数同士の関係を明らかにする

・相関があるからといって、因果関係があるとは限らない(第10章で解説)

7.2 相関係数

片方の変数がもう片方の変数に従属している場合、見かけの相関が生じてしまうので注意
・XとX+Y
・XとY/X

ピアソンの積率相関係数r
・最も頻繁に使われる値
・以下の留意点があるため、必ず散布図を描いて分布を確認する必要あり
 ・関係性が線的である場合にしか使えない(非線形関係を適切に定量化できない)
 ・2変数が正規分布に従う場合にしか使えない(外れ値があると適切に定量化できない)
・散布図の傾きは、rの値とは無関係

スピアマンの順位相関係数ρ
・正規性がない場合に使えるノンパラメトリックな相関係数
・サンプルサイズが極端に小さい場合(10未満)は、ケンドールの順位相関係数τの方が適している

非線形相関
・MIC(Maximal Information Coefficient):相互情報量に基づく指標

相関係数の有意性検定
・母集団に含まれている全てのデータが得られている場合には、相関係数の真の値が算出できる(記述統計)
・母集団から抽出した標本集団から相関係数(標本相関係数)を計算する場合には、標本相関係数はばらつきを持ち、母相関係数の推定値となる
・帰無仮説「母相関係数=0(無相関)」として仮設検定を行い、p<0.05である場合にのみ、相関係数の値を使える

7.3 線形回帰

回帰が相関と異なる点
・片方の変数(目的変数)をもう片方の変数(説明変数)で説明できる
・原因(説明変数)が結果(目的変数)に及ぼす効果を把握できる(第10章で解説)
・元情報(説明変数)から予測値(目的変数)を算出できる(第12章で解説)

回帰モデル
・仮定する母集団y=a+bx+ε
・母集団と標本(実測値:xi→yi)の関係式
・ε:確率的な誤差
・aやb:母集団の性質を示すパラメータ(未知)、標本から推定したい値

回帰分析のポイント
・どの回帰式を使うか
・どのように回帰式をデータに当て嵌めるか(最小二乗法など)
・得られた回帰モデルをどのように評価するか

回帰式の分類
・線形回帰:パラメータに関して1次式になっているもの、y=a+bx+ε、y=a+bx+cx^2+ε、など
・非線形回帰
・一般化線形モデル(GLM)

最小二乗法
・最小二乗法で得られた値a^,b^は、母集団パラメータの不偏推定量となる

回帰係数の仮説検定
・最小二乗法で推定した回帰係数に関して仮説検定を行うor互換区間を求めるためには、誤差εが正規分布に従っている必要がある(ただし、中心極限定理より、標本サイズが大きければOK)
・回帰モデルの誤差ε分布の性質は、以下の検定で判定できる
 ・正規性(正規分布に従っている):シャピロ・ウィルク検定
 ・等分散性:ブルーシュ・ベーガン検定
・帰無仮説:傾きb=0

散布図に回帰式グラフを書く際の注意
グラフの周りに表示する範囲には、以下の2種類があるので注意
○95%互換区間
・回帰係数(推定値)の確からしさを表せる
・回帰式の95%互換区間とは、「標本抽出と回帰分析を100回反復したら、95回は互換区間の範囲に母集団モデルが含まれる」という意味
○95%予測区間
・回帰式の当て嵌まりの良さを示せる
・回帰式の95%予測区間とは、「得られる実測値の95%が含まれる」という意味

決定係数R^2
・回帰式の当て嵌まりのよさ(目的変数を説明できている割合)を評価するための指標
・0→1、1に近いほど当て嵌まりが良い
・説明変数が1つの1次関数の線形回帰で最小二乗法を用いた場合、R^2=(ピアソンの積率相関係数r)^2が成立する
・説明変数の数が増えると決定係数は大きくなる性質がある(意味のない説明変数を増やすことにより評価を高くできてしまう)ため、重回帰分析では、調整済決定係数(補正R2)を使う

第8章 統計モデリング:線形回帰から一般化線形モデルへ

8.1 線形回帰から広い枠組みへ

回帰の拡張
・説明変数の数を増やす:重回帰分析
・説明変数の種類を変える:量的変数、カテゴリカル変数
・目的変数(誤差)の分布を変える:一般化線形モデル(GLM)
・回帰モデルの形を変える:交互作用、非線形、一般化線形混合モデル(GLMM)

重回帰
○重回帰分析の結果の見方
・推定された偏回帰係数とその有意性
・データの当て嵌まりのよさ:補正R2
・回帰モデルの説明力の有意性:F統計量から得られるp値
○標準化偏回帰係数
・各偏回帰係数は、単位が異なるため、そのままでは大きさ(目的変数に及ぼす寄与の大きさ)比較できない
・そのため、標準化(回帰分析を実行する前に各説明変数を平均0標準偏差1に変換)して、寄与の大きさを比較できるようにする

ダミー変数
・説明変数をカテゴリカル変数にする方法
・2カテゴリの場合は、x=0/1
・4カテゴリの場合は、x1=0/1, x2=0/1, x3=0/1(カテゴリ間に大小関係ができてしまうため、x=0/1/2/3のダミー変数は使えない)
・カテゴリカル変数による線形回帰の結果は、分析結果(p値など)が、2標本t検定や分散分析と一致する(つまり数学的に等価)

共分散分析(ANCOVA)
・回帰分析と分散分析を合わせたような手法
・調べたい要因以外の影響(交絡バイアス)を取り除いて比較することができるため検出力を上げることができる
・共分散分析が使える条件
 ・交互作用がないこと(群間で回帰直線が並行であること):交互作用検定で判定可能
 ・回帰係数≠0:回帰係数の有意性検定で判定可能

回帰モデルにおける説明変数は、原理的にはいくらでも多くできるが、増やしていくと以下のデメリットがある
・パラメータの推定に必要なデータサイズが累乗で増えていく(高次元データ)
・多重共線性の問題が起こりやすくなる
そのため、実務上は、次元削減(第12章で解説)を使って説明変数を減らす

多重共線性(マルチコ)
・説明変数間の相関が強いと、回帰係数の推定の誤差が大きくなる(推定値の信頼性が落ち、予測精度も落ちる)
・実現象の観察データでは、説明変数間に相関があるケースは多い
・分散拡大係数(VIF):多重共線性の度合い、相関係数と関連する値
○多重共線性がある場合の対処法
・相関ある変数のいずれかをモデルから除去する
・次元削減(主成分分析など)により説明変数を減らす

8.2 回帰モデルの形を変える

交互作用
・説明変数同士が相乗効果を持つことがある(回帰モデル中に、説明変数の積の項が生じる)
○重回帰モデルに交互作用項を含むことによるデメリット
・解釈が難しくなる
・説明変数が増えると、交互作用項の数は爆発的に増える
・交互作用が積の形で表せるかどうか不明
・説明変数と交互作用項が多重共線性を持ってしまう
よって、実務的には以下の場合にのみ考慮する
・先行研究により交互作用項の存在が明らかになっている場合
・交互作用の有無に関心がある場合

2元配置の分散分析
○1元配置の分散分析
・例:肥料(A/B/C)の違いによって、茎の長さが異なるか?
○2元配置の分散分析
・例:肥料(A/B/C)と温度(高/低)の違いによって、茎の長さが異なるか?
・説明変数が2つ(肥料、温度)と考えることができる
・説明変数間の交互作用(温度により肥料の効果が変わる)も考慮することができる

非線形回帰
・複雑なモデルを使うと、回帰係数の解釈が難しくなるため、統計学(説明可能性を重視)では通常推奨されない
・説明可能性を犠牲にしても予測精度を追求する必要がある場合は、複雑なモデルを使うこともある
・非線形回帰モデルの例:酵素反応における基質濃度と反応速度の関係式

8.3 一般化線形モデル(GLM)の考え方

○一般線形モデル:誤差が正規分布、最小二乗法によるパラメータ推定
↓拡張
○一般化線形モデル(GLM):誤差が正規分布以外(二項分布、ポアソン分布など)、最尤法(確率分布に基づく方法)によるパラメータ推定
↓拡張
○一般化線形混合モデル(GLMM):ランダム効果も考慮可能
↓拡張
○階層ベイズ:第11章で解説

線形回帰が適切ではない状況
・目的変数が2値(Yes/No)→ロジスティック回帰が適切
・目的変数が非負整数(0,1,2,…)→ポアソン回帰が適切
・誤差が正規分布に従っていない場合、最小二乗法(距離に基づく)ではうまく当て嵌める(パラメータを推定する)ことができないため、最尤法(データの確率分布に基づく)を使ってパラメータを推定する

最尤法(最尤推定法)
・尤度(likelihood):L(θ|x)=P(x|θ)、実測値xの発生しやすさ(確率分布の形状を決めるパラメータθに依存する)、θの例:平均値μ
・最尤法:実測値xが最も発生しやすい(尤度を最大化する)θを見つける点推定の一種、通常は対数尤度 Log L(θ|x)を使う
・一般化線形モデルは、目的変数の誤差の確率分布(二項分布、ポアソン分布など)を指定し、尤度に基づいてパラメータを推定する
・確率分布として正規分布を指定した場合、最小二乗法で推定を行った場合と同じ結果になる

・最尤推定は点推定の一種


ロジスティック回帰

・目的変数が2値カテゴリカル変数(Yes/No)の場合に使われる
・目的変数の誤差項が二項分布に従う:y~B(N,p)
・二項分布Bにおいて2値のいずれかが起こる確率pは、ロジスティック関数p(a,b)で表現できるため、実測値からパラメータa,bを最尤推定してpのモデルを構築する
二項分布:確率pで起こる事象が試行N回中でx回起こる確率B(N,p)
・ロジスティック回帰の結果を評価する際にはオッズ比などを使う

オッズ比(OR)
・主に医療統計分野で、事象の起こりやすさを比較する尺度(医療統計分家ではリスク比p/qが使えないケースがあるため)
○医療統計の代表的な観察研究
・コホート研究:喫煙者500人と非喫煙者3000人を追跡して、肺がんになったかどうかを調べる方法
・ケースコントロール研究:既に肺がんになった100人、なっていない100人を対象にして、過去に喫煙していたかどうかを調べる方法、リスク比が指標として使えないためオッズ比を使う

ポアソン回帰
・目的変数が非負整数(カウント数)である場合に使われる
・目的変数の誤差項がポアソン分布に従う:y~P(λ)、λ=exp(a+bx)
ポアソン分布:ある期間に平均λ回起こる現象が、ある期間にk回起きる確率(例:「30分に平均2回電話がかかって来るコールセンターにおいて、1時間に6回電話がかかって来る確率」)

一般化線形モデルのまとめ
・目的変数が従う確率分布により、使うモデルが異なってくる
・線形予測子:a+bx
・リンク関数:線形予測子と目的変数確率分布(二項分布ならp、ポアソン分布ならλ)のパラメータを繋ぐ関係式(二項分布ならlogit関数、ポアソン分布ならlog関数)
○例
・負の二項回帰:誤差項が負の二項分布に従う場合
・ガンマ回帰:誤差項がガンマ分布に従う場合

過分散
ロジスティック分布やポアソン分布には、平均と分散の間に関係があるため、この関係を満たさないほど実測されたデータの分散が大きい場合、ロジスティック回帰やポアソン回帰を適用してしまうと、偽陽性が起きやすくなる

一般化線形混合モデル(GLMM)
・一般化線形モデルにおける線形予測子a+bxに、ランダム効果rを組み込み、予測子a+bx+rを使うモデル
・さらに、確率分布のパラメータが確率分布で構成されるような階層的なモデルを考えることも可能(最尤法ではパラメータ推定が困難であるため、ベイズ推定におけるMCMCを使って推定する)

8.4 統計モデルを評価・比較する

Wald検定
・一般化線形モデル(GLM)で推定した回帰係数に関する仮説検定(帰無仮説:回帰係数=0)
・推定した回帰係数が正規分布に従う場合、Wald統計量(=推定した回帰係数/標準誤差)を使って、p値を得ることができる
・サンプルサイズが小さい場合には、正規分布に従うことを仮定できないため、尤度比検定を使うのが適切

尤度比検定
・検定統計量ΔDを使う
・帰無仮説のモデルからデータをランダムに生成(ブートストラップ法)し、検定統計量を計算する

情報量基準に基づくモデル選択
・AIC(赤池情報量基準):新しく得られるデータの予測精度が高いモデルを得られる(既存データを生成した分布モデルを選ぶわけではない)、過剰適合(overfitting)しないモデルを選択できる
・BIC(ベイズ情報量基準):AICとBICの使い分けは難しい
・AICc(補正された赤池情報量基準)
・DIC(逸脱度情報量基準):ベイズ推定により得られたモデルが対象
・WAIC、WBIC:パラメータの推定量が正規分布で近似できない場合にも使える(第11章で解説)

第9章 仮説検定における注意点:再現可能性とp-hacking

・仮説検定を実行するのは簡単だが、理屈を理解するのは難しい
・理屈を理解しないまま実行された報告が氾濫し、「再現性の危機」という問題が起きている

9.1 再現性(再現可能性、Reproducibility)

再現性の危機
・ある研究者が論文で報告した内容を、第三者が同じ条件や方法で追試したときに、同等の結果が得られないこと
・元の論文の主張が誤っている可能性がある(1回の追試で再現できないからといって、誤っていると結論できるわけではない)

再現できない原因
・そもそも同一の条件を実現することが困難→仕方ない
・仮設検定の使い方が誤っている(故意または過失により)→是正する必要あり

科学論文がジャーナルに掲載されるまでのプロセス
①研究者が、作成した論文をジャーナルの編集部に投稿する
②ジャーナルの編集部が、対象論文を、近い分野の研究者2−3名に査読してもらう
③査読者は、編集部に査読コメントを送付する
④編集部は、査読コメントに基づき、研究者に改訂(修正、解析の追加など)を求める
⑤研究者は、対象論文を改訂する(メジャーリビジョン、マイナーリビジョン)
⑥編集者の判断により、掲載決定(アクセプト)または掲載不可(リジェクト)となる
※ジャーナルに掲載されたとしても、数人の査読をパスしただけに過ぎない
※出版バイアス(ジャーナルには「薬の効果が認められた」という論文しか載らず、「薬の効果が認められなかった」という結果は公表されないため、効果についての評価が歪められてしまう)がある
※論文が掲載されるかどうかは研究者としての生活に関わるため、p-hackingする動機が常にある

9.2 仮説検定の問題点

p値の意味(おさらい)
・帰無仮説が正しいという仮定の下で、実測値よりも極端な値(レアケース)が得られる確率
・p値が小さいほど、帰無仮説は誤りである(実測値と帰無仮説は乖離している)ことを示す
・帰無仮説を棄却するかどうかの閾値として、有意水準α=0.05が使われることが多い(レアケースが100回中5回より多く起きるなら、そもそもの仮定が間違っている)
・確率αで偽陽性を出してしまう

最近の動向
・α=0.005にする案もある
・サンプルサイズを70%ほど増やすことで、α=0.005まで小さくしても、βが大きくならないように維持できる

仮説検定の歴史
・フィッシャー:帰無仮説とp値の導入。「帰無仮説の棄却」という考え方はなく、p値の大小のみで評価する。
・ネイマン&ピアソン:偽陽性確率α/偽陰性確率β/効果量dの導入。αβdから適切なサンプルサイズnを決定(設計)し、有意水準αを使って帰無仮説が棄却できるか判断する。
※ただし、実務的にはさまざまな制約により、設計されたサンプルサイズ分のデータを用意できないことも多い。そのため、p値の大小(サンプルサイズ依存性あり)だけではなく、互換区間、効果量なども併せて報告することが現代では一般的。

サンプルサイズが大きいことによる問題
サンプルサイズを大きくしていくと、信頼区間が狭くなっていく
信頼区間が狭くなると、ごくわずかな差異でも有意差として検出できるようになる
実務上、小さすぎる差異は検出しても意味がないことが多い(例えば、血圧を0.001だけ下げられる新薬が開発できても意味がない)

サンプルサイズが大きすぎる場合の問題点は、
「ごくわずかにでも差異があれば、それが意味のないほど微細なものであったとしても、帰無仮説を否定してしまう」
ことである。

統計検定においては「差があるか否か」のみに注目しているが、実際の現場では、「ある一定以上差があるか」が(暗黙的に)求められていた。微細な差異であっても巨大なサンプルサイズがあれば検出できるが、それは実用的には検出しても意味がなかったのである。

そのため、実際の臨床研究では、先に「効果量=想定される(存在してほしい)差の大きさδ」を設定し、それと検出力からサンプルサイズを決定する。ここで決められたサンプルサイズはδを検出できるほどには大きいが、δより小さい差を検出してしまうほど大きくならないように設計されているのである。

サンプルサイズの決め方
α、β、効果量δを決めれば、nは算出できる(統計解析アプリを使う)

効果量δ
・仮説検定により帰無仮説を棄却≠対立仮説を採択できたとしても、有意差があることを示せただけで、どの程度の差があるかどうかは示せない
・程度の差を表現するために使えるのが、効果量δ
・効果量は、p値とは異なり、サンプルサイズ依存性がないため、複数論文の比較分析(メタアナリシス)にも使える
・仮設検定手法ごとに複数の効果量が定義されている
○t検定(平均値の差を示す効果量)
・Cohenのd
・Hedgeのd
○相関の効果量
・相関係数r
○回帰の効果量
・決定係数R^2

ベイズ因子(Bayes factor)
・帰無仮説と対立仮説の非対称性:通常の仮説検定では、帰無仮説が棄却できない場合、帰無仮説を採択することはできない(「有意差がない」という主張は誤りで、「有意差があるとは言えない」までしか主張できない)
・周辺尤度(evidence):あるモデルMが実測されたデータxを説明するためにどの程度相応しいかp(x|M)
・ベイズ因子を使った仮説検定では、帰無仮説を採択することができる。しかし、注意点もある
 ・2仮説(帰無仮説と対立仮説)間の相対的な比較しかできない
 ・ベイズ因子はパラメータθの事前分布に影響される
 ・周辺尤度の計算が難しい(p値の計算は簡単)

偽発見率(FDR:False Discovery Rate)
・正しいと主張されたもののうち、偽陽性である割合
・FDRの高さは、再現性が低いことを示す

良い仮説(真実を言い当てている仮説)を立てることの重要性
・荒唐無稽な仮説でも、大量に検定にかければ、たまたま正しいと主張できること(偽陽性)も起きる(数打てば当たる)
・理論的な裏付けがないと、良い仮説を精度よく立てることは難しい(例えば、理論が弱い心理学は、再現性が低い)

9.3 p-hacking

故意または過失によって、p値が都合のいい数値になるように(有意水準αを下回るように)、実験デザインや分析を行うこと

典型的なp-hacking
・仮説検定の結果を見ながら、サンプルサイズを調整する(追加データを取得するなど)
・都合のいい結果が出た検定結果のみを報告する(HARKing、Hypothesis After the Results are Known、「結果を見てから仮説を作る」)、仮説検定におけるチェリーピッキング
 ・例:偽陽性のため、薬を20個作れば、そのうち1個には有意な結果が出せる薬が含まれてしまうことになる(有意水準α=0.05の場合)
・検定を何重にも繰り返してしまう→多重性の問題が発生し、偽陽性の確率が高まる

HARKingを防止するための対策
探索型研究(仮説を立てるための予備実験)と仮説検証型研究(立てた仮説を検証するための本実験)を分離する
・事前登録制度(pre-registration):仮説検証型研究を実施する前に、研究計画(仮説、実験デザイン、解析手法など)を登録し、登録した内容に従って研究を実施する制度

第10章 因果と相関:誤った解釈をしないための考え方

10.1 因果と相関

例:幸福度と寿命の関係
・幸福度が上がることによって、寿命が伸びる?
・寿命が伸びることによって、幸福を感じるようになる?
・年収が高いことによって、幸福度も寿命も上がる?(交絡因子の存在、擬似相関)

因果関係があっても相関関係がない場合
・交絡因子がある場合
・合流点バイアスがある場合
・中間変量がある場合(X→Z→Y)

研究の種類
・観察研究:横断研究(現在)、症例対照研究=ケースコントロール研究(過去に遡る)、コホート研究(未来に追跡する)
・実験研究(介入研究):RCT、クロスオーバー試験

相関関係を知るメリット
・片方の変数を観測することによって(介入することはできない)、もう片方の変数を予測することができる
・相関は2つの変数間に方向性がないため、どちらを測定しても予測できる
・因果関係がなくても予測はできる
・偶然生じた相関の場合(p-hackingで相関ありになってしまった場合など)、予測には使えない

因果関係を知るメリット
・原因変数に介入することによって、結果を変えることができる(介入の効果を推定することができる)
・因果は2つの変数間に方向性があるため、介入できるのは原因の方のみ

交絡因子
・最も交絡因子になりやすい変数は、時間である(時間と共に変化する自然現象は多い)

10.2 ランダム化比較試験(RCT)

着目したい要因以外の要素を同一にすることで、着目したい要因の効果だけを抽出する(交絡因子の影響を除去する)
・ランダム化比較試験
・傾向スコアマッチング

RCTを使うと、交絡因子を観測する必要がなくなる

理論的には、
・患者に薬を投与した場合の血糖値A
・患者に薬を投与しなかった場合の血糖値B
を想定できるが、現実世界では、AかBのどちらかしか観測できない
RCTの発想は、患者個人ではなく集団を考えて、
・薬を投与する群の血糖値の期待値E(A)
・薬を投与しない群の血糖値の期待値E(B)
の差を観測し、2群間比較を行うこと

RCTで、処理群と対照群にランダムに被験者を割り当てられないことを「セレクションバイアス」と呼ぶ

10.3 統計的因果推論

実務上、RCTは様々な理由(倫理的な理由など)で実施できない場合もあるため、観察データから因果効果を推定することもできる
・統計的因果推論
・統計的因果探索

統計的因果推論
・重回帰:想定できる交絡因子を測定して回帰モデルに組み込む
・層別解析:各層内での交絡因子の効果をできるだけ小さくする
・傾向スコアマッチング:交絡因子の値が似たデータをペアにして交絡因子の効果を打ち消す
・差の差分法(DID)

第11章 ベイズ統計:柔軟な分析へ向けて

11.1 ベイズ統計の考え方

○統計学の分類:確率の捉え方が違うだけなので、用途に応じて使い分ける
・頻度主義統計:従来の統計学
・ベイズ主義統計

不確実性の扱い
○頻度主義
・母集団分布から標本を抽出するプロセスが不確実だと考える
・つまり、母集団は「真の母数(固定値)」θを持ち、その分布に従って測定値xが出現する
・確率はp(x|θ)と記述できる
○ベイズ主義
・標本から母集団分布を推定するプロセスが不確実だと考える
・つまり、測定者が、測定値xを知ることで、母数θ(変数)の推定値に対する確信度合い(=ベイズ主義における確率)は変化する
・確信度合いは事後確率p(θ|x)、測定値xを知る前の事前分布はp(θ)と記載できる
・測定値を得れば得るほど、不確実性は減り、母集団分布の正しさは上がっていく(θが正しい値に更新されていく)

最尤法(おさらい)
・頻度主義では、最尤法による母数θは点として推定できる(点推定)。推定値を統計モデルに代入したものが、最尤法における予測分布p*(x)となる。

ベイズ統計における仮説検定
・頻度主義統計における仮説検定(計算が簡単)に比べて、やや複雑な手順を踏む必要がある
①事前分布p(θ)を設定する
・分析者の主観的判断で設定する(ベイズ主義が歴史的に批判されてきた原因)
・実務的には、事前情報(先行研究結果など)がない場合、恣意性を含めないように、一様分布(無情報事前分布)、分散が十分大きな正規分布を使うことが多い
②測定値から、事後分布p(θ|x)を算出する ?
③予測分布p*(x)を算出する ?
④予測分布p*(x)と母集団の真の分布q(x)がどの程度合っているかを評価する(予測分布の良さを定量化する)
・カルバック・ライブラー情報量(KL divergence)
・WAIC
・WBIC

ベイズ統計のメリット
・統計モデルのパラメータ(母集団の母数)を確率分布として表現できる(例:「母集団2群の平均値の差が3.5以上である確率は80%である」)ため、直感で理解しやすく、意思決定に使いやすい
・複雑なモデルでもパラメータ推定が可能

11.2 ベイズ統計のアルゴリズム

マルコフ連鎖モンテカルロ法(MCMC)
・乱数発生により近似解を得るシミュレーションであるため、全く同じデータをインプットにしても、解析結果が異なってくる(特に、モデルの家庭が不適切だと、ある分布に収束しない場合もある)
・マルコフ連鎖:現状態から次状態に変化する確率が、現状態のみに依存する確立過程
・単なるモンテカルロ法では、データ同士は独立にランダム生成されるが、MCMCでは、ある点の値を参照して次の点が生成される
・MCMCのアルゴリズム
 ・ギブスサンプリング法
 ・メトロポリスヘイスティング法
 ・ハミルトニアンモンテカルロ法

・stan:MCMCに特化したソフトウェア

11.3 ベイズ統計の例

MCMCの例
・乱数分布を記述するための要約量として、以下がある
 ・事後期待値(EAP)
 ・事後最頻値(MAP)
 ・(1-α)%確信区間:頻度主義における互換区間とは意味が異なるので注意

・2標本の平均値の比較
・ポアソン回帰
・階層ベイズモデル:階層事前分布を使っているベイズ統計モデル

第12章 統計分析に関わるその他の手法:主成分分析から機械学習まで

12.1 主成分分析

次元削減(次元圧縮)
高次元データにおいて、変数間に相関がある場合、圧縮することで情報量を減らすことができる(例:画像や動画のファイル圧縮)
同様に、複数変数をひとつの変数にまとめることで、分析や解釈を簡単にできる

次元削減(変数の数を減らす)のメリット
・可視化しやすくなる(人間は3次元までしか直感的に認知できない)
・多重共線性が少なくなり回帰係数の推定が安定する
・ただし、新たに作った成分は、解釈しやすいとは限らない

主成分分析(PCA)
・寄与率:各主成分が持つ情報(分散)の割合
・累積寄与率:第1〜k主成分までで全体の情報の何%を含んでいるか
・主成分負荷量:各主成分と元変数の相関係数
・主成分得点:主成分を使ってデータを表したもの

因子分析(factor analysis)
ドメイン知識に基づいて、測定可能な変数セットの裏に共通因子(原因)を仮定して行う分析

12.2 機械学習入門

機械学習の分類
・教師なし学習(Unsupervised Learning):次元削減、クラスタリング、特徴抽出
・教師あり学習(Supervised Learning):回帰、分類
・強化学習(Reinforcement Learning):エージェントが環境に対して行動を起こし、逐次的に状態と報酬を得て行動を更新していく

統計学と機械学習の違い
○統計学
・小さなサンプルサイズのデータセットでも適用可能
・説明可能性を重視
・モデルが単純(線形、パラメータ少)
○機械学習(教師あり学習)
・大きなサンプルサイズのデータセットが必要
・予測精度を重視
・モデルが複雑(非線形、パラメータ多)

12.3 教示なし学習

クラスター分析(クラスタリング):データ間に距離を定義して類似度を評価する
・k-mean法
・階層クラスタリング:樹形図(デンドログラム)を描く

次元削減
・PCA(主成分分析):線形な相関関係のみ適用可能
・t-SNE:非線形な相関関係にも適用可能
・UMAP:非線形な相関関係にも適用可能

12.4 教示あり学習

・損失関数(線形回帰における二乗誤差に相当)を最小化するパラメータを求める
・交差検証:手元データを学習用データと検証用データに分割して使うこと
・過剰適合(overfitting):モデルの予測精度が、学習用データに対しては高いが、検証用データに対して低くなってしまうこと
・正則化:過剰適合を避けるために損失関数に補正項を含めること

○回帰:目的変数が量的変数
回帰モデルの評価指標
・MSE(平均二乗誤差)
・RMSE(二乗平均平方根誤差)
・MAE(平均絶対誤差)

○分類:目的変数がカテゴリカル変数
・ロジスティック回帰(線形分類器:一本の直線)
・決定木(線形分類器:複数の直線):ランダムフォレストなど
・SVM(非線形分類器)
・ニューラルネットワーク(非線形分類器):深層学習など

○分類モデル(2クラス分類)の評価指標

・AUC(Area Under the ROC curve):ROC曲線の下の面積

第13章 モデル:統計モデル・機械学習モデル・数理モデル

「全てのモデルは間違っているが、そのうちいくつかは役に立つ」

13.1 モデルとは

○モデルの種類
・統計モデル(帰納的):観測データに基づきモデル(確率分布)のパラメータを推定
 ・少数のデータから帰納的に作成
 ・簡単なモデル構造
・機械学習モデル(帰納的):観測データに基づきモデルのパラメータを推定
 ・大量のデータから帰納的に作成
 ・複雑なモデル構造
・数理モデル(演繹的):現象のプロセスやメカニズムを仮定して数式で表現
 ・パラメータを変えることによりモデルの挙動を調べる
 ・データがまだ観測できていない範囲についても予測(forecast、prediction)や制御(projection)が可能になる場合がある
 ・例:ニュートン運動方程式、ミカエリスメンテン酵素反応式、理想気体の状態方程式、オプション価格のブラックショールズ方程式、感染症伝播モデル(SIRモデル)、など

○数理モデルの種類
・決定論的モデル:微分方程式、差分方程式、など
・確率的モデル:ランダムウォーク、マルコフ過程、など
・組み合わせモデル:確率微分方程式

○数理モデルの獲得方法
・解析的に解く:式変形により厳密な一意の解が得られる、モデルが単純(線形微分方程式)な場合に可能
・数値計算的に解く:値の代入を繰り返して近似解を得る、モデルが複雑(非線形微分方程式)な場合、コンピュータによるシミュレーションなど

13.2 数理モデル(決定論的モデル)

・差分方程式:離散値
・微分方程式:連続値x(t)

時系列の遷移に基づく現象の動態(ダイナミクス)をモデル化する
分岐図(bifurcation diagram)

統計モデルでも、時系列解析用に使えるモデルは存在する(通常の回帰分析では不適切な場合があるので注意)

指数関数的増加
・数が一定時間後に何倍かになる現象(増加量は現在数に依存している)
・例:大腸菌の分裂、感染症の伝播

密度効果
・際限なく増え続ける現象よりも、時間が経つと一定値に安定する現象が多い(平衡状態、飽和)
・ロジスティック方程式で表現できる
・微分方程式の平衡点を調べ、その平衡点が安定かどうかを評価する(線形代数の固有値&固有ベクトルを使う)ことで、モデルの性質を把握できる

13.2 数理モデル(確率的モデル)

分子運動は、分子1個に着目すれば決定論的モデルで書けるはずだが、分子集団として考えると確率的モデルで書いた方が扱いやすい

確率過程
・ランダムウォーク:ギャンブル、粒子運動(拡散、ブラウン運動)
↓一般化
・マルコフ過程:遷移行列(状態i→jへの遷移確率)で記述できる、遷移確率は最尤法などでデータから推定することもできる

おわりに

・分析手法の種類は多種多様で、前提条件により微妙に異なる(証明できるレベルまで数学に詳しくなる必要はない)
・共通している考え方(例えば、仮設検定の仕組みとp値の意味)の部分をまず身につけるべき
・考え方を理解していないと誤った結論を出してしまうので注意

仮説検定理解力チェック

統計的有意とは、科学的に意義があることを示す
 →誤り(統計学における「有意性」は、意義があるかどうかとは無関係)

p値とは、帰無仮説が正しい確率のことである(検定結果がp=1%ならば、帰無仮説が正しい確率は1%)
 →誤り(定義とは全く異なる)

p値とは、得られた実測値が偶然に出現する確率である
 →誤り(正しくは、帰無仮説が正しいと仮定した場合に「得られた実測値以上に極端な値」が偶然に出現する確率)

有意水準α≦p値の場合、帰無仮説は正しい(採択できる)
 →誤り(正しくは、「帰無仮説が棄却できない(誤っているとは言えない)」「有意差がないはと言えない」)

※「帰無仮説:犯人は東京にいる(犯人=東京)」が棄却できる場合は「対立仮説:犯人は東京以外にいる(犯人≠東京)」が採択できるが、棄却できない場合は「犯人は東京にいるかどうか分からない」。
・犯人が福岡で目撃された。もし犯人が東京にいる場合、福岡で目撃される確率pは1%だと計算できた。
・犯人が神奈川で目撃された。もし犯人が東京にいる場合、神奈川で目撃される確率pは80%だと計算できた。
判断基準(有意水準α)を5%とする場合、
・p<5%なので、「犯人は東京にいない(犯人は東京以外にいる)」と主張できる
・5%≦pなので、「犯人は東京にいない」とは主張できない(東京にいるかもしれないし、いないかもしれない)

なぜ帰無仮説はイコールで表現されるのか

以下の用語で表されているのは帰無仮説(判定するのが簡単な方)
・差がない (A=B) ※A≠Bを仮定しても確率を計算しようがない
・関係ない
・違いがない
・今までと同じ
・変化なし
・効果がない

この記事が気に入ったらサポートをしてみませんか?