【読書_学び整理】統計学がわかる

■書籍
統計学がわかる (ファーストブック)
https://amzn.to/3gwQn8d

■平均と分散
・あるデータの集団の代表の値として、平均値を用いることが多い
(中央値も代表の値の1つ)
 平均値=データの総和÷データ数

・平均値に差がなくても、データの散らばり具合は異なることがある

・データの散らばり具合を見るためには、度数分布図(ヒストグラム)を描く
 度数分布を作る場合、一区切りのグループを作る。これを階級と呼ぶ。
 (階級の区切り方は個人の選択)
 1つの階級に含まれるデータの個数を度数と呼ぶ。

・データの散らばり具合を示す数値として、分散や標準偏差を用いる
 分散:平均値を中心にして、データがどのくらいバラついているのかを示した数値
    分散=((データ-平均値)^2)の総和÷データ数
 標準偏差:分散のルート
      分散は式の中で2乗しているため、
      単位を揃えるために分散の平方根(ルート)を取る必要がある。


■母集団
・それについて知りたいと思う、全体のデータを母集団という
 母集団からいくつか取り出したデータを標本という
 標本内のデータの数をサンプルサイズという
 良い標本を取り出すためには、無作為(ランダム)抽出することが必要

・母平均は標本の平均で推定可能
 母分散は標本の不偏分散で推定可能
 不偏分散=((データ-平均値)^2)の総和÷(サンプルサイズ-1)

・母平均が95%の確率で含まれているような範囲を95%信頼区間という
 信頼区間=標本平均±t×標準誤差
 標本平均の分散=(母分散÷サンプルサイズ)
         (不偏分散÷サンプルサイズ)
 標本平均の標準偏差(誤差)=√不偏分散÷サンプルサイズ

・tの値は確率(95%や99%)と自由度によって変わるので、t分布表を見る

・サンプルサイズから1を引いたものを自由度という


■仮説検定の方法
①「〇〇と△△との間には差がない」という形の帰無仮説を立てる
②期待度数と観測度数のズレを見るためカイ2乗値を計算する
③カイ2乗値の出現確率を調べる
④有意水準を基準にして帰無仮説を棄却するか、あるいは採択するかを決める

・なぜ、「差はない」という帰無仮説を立てるのか?
⇒「差はある」という仮説は、大中小など無限に立てることが可能。
 その1つ1つを検討していくことは不可能なので、「差はない」という仮説を立てることで、あるかないかを決めるシンプルな形にしている。

・カイ2乗値とは
観測度数と期待度数のズレが「誤差の範囲のもの」なのか、それとも「誤差とは言えない、誤差以上のもの」なのかを決める数値
カイ2乗値=(((観測度数-期待度数)の2乗)÷期待度数)の総和
観測度数:実際に観測された値(実測値)
期待度数:同じ割合で出る数値

【カイ2乗値の性質】
・期待度数と観測度数が完全に一致すれば、カイ2乗値はゼロになる
・逆に、不一致(ズレ)が大きくなれば、カイ2乗値は大きな値になる

・カイ2乗分布とは
横軸にカイ2乗値を取り、縦軸に確率密度を取ることで描けるグラフ
下のように自由度によってカイ2乗分布は異なる

カイ2乗値からそれが起こる確率を調べるために下記の様なカイ2乗分布票を使う。


■対応のないt検定
①帰無仮説を立てる(〇と△の差がない)
②帰無仮説の否定である、対立仮説を立てる
③有意水準を決める
 通常は厳しくて1%、少し甘くて5%にする
④得られた標本を使って、指標tを計算する
⑤標本の数から自由度を計算する
 自由度=(Aのサンプルサイズ-1)+(Bのサンプルサイズ-1)
    =Aのサンプルサイズ+Bのサンプルサイズ-2
⑥t分布表の該当する自由度のところを見て、求めたtが棄却域に入っているかいないかを判定し、
 帰無仮説を棄却するか、採択するかを決める。
 ・もしtが棄却域に入っていなければ、帰無仮説を採択する
 ・もしtが棄却域に入っていれば、帰無仮説を棄却し、対立仮説を採択する
⑦結論を決める
 帰無仮説を採択:〇と△の差がない
 対立仮説を採択:〇と△の差がある

■対応のあるt検定
①帰無仮説を立てる(〇と△の差がない)
②帰無仮説の否定である、対立仮説を立てる
③有意水準を決める
 通常は厳しくて1%、少し甘くて5%にする
④得られた標本を使って、指標tを計算する
 t=差の平均÷√不偏分散÷サンプルサイズ
 あるいは、
 t=差の平均÷√標本分散÷(サンプルサイズ-1)
⑤標本の数から自由度を計算する
 自由度=差のサンプルサイズ-1
⑥t分布表の該当する自由度のところを見て、求めたtが棄却域に入っているかいないかを判定し、
 帰無仮説を棄却するか、採択するかを決める。
 ・もしtが棄却域に入っていなければ、帰無仮説を採択する
 ・もしtが棄却域に入っていれば、帰無仮説を棄却し、対立仮説を採択する
⑦結論を決める
 帰無仮説を採択:〇と△の差がない
 対立仮説を採択:〇と△の差がある


■分散分析(1要因)
①帰無仮説を立てる(3つの評価の平均に差はない)
②帰無仮説の否定である、対立仮説を立てる
 (3つの評価の平均において、少なくとも1つの組み合わせに差がある)
③有意水準を決める
 通常は厳しくて1%、少し甘くて5%
④得られた標本を使って、全体の平方和、群間の平方和、郡内の平方和を計算する
⑤分散分析表を作り、自由度、平均平方を計算する
 群間の自由度=群の数-1
 郡内の自由度=(群1のサンプルサイズ-1)+(群2のサンプルサイズ-1)+(群3のサンプルサイズ-1)
 全体の自由度=各郡のデータを合わせたサンプルサイズ-1
 平均平方=平方和÷自由度
      ※平方和=個々のデータと平均値の差を2乗した値の和
⑥指標Fを計算する
 F=群間の平均平方÷郡内の平均平方
⑦F分布表の該当する自由度のところを見て、求めたFが棄却域に入っているかいないかを判定し、
 帰無仮説を棄却するか、採択するかを決める
 ・もしFが棄却域に入っていなければ、帰無仮説を採択する
 ・もしFが棄却域に入っていれば、帰無仮説を棄却し、対立仮説を採択する
⑧結論を決める
 ・帰無仮説を採択した場合、平均に差はない
 ・対立仮説を採択した場合、少なくとも1つの組み合わせに差がある

■分散分析(2要因)
①帰無仮説を立てる(要因1による差がなく、要因2による差がなく、また交互作用による差もない)
②帰無仮説の否定である、対立仮説を立てる
 (要因1による差があるか、要因2による差があるか、または交互作用による差があるか、どれか1つが成り立つ)
③有意水準を決める
 通常は厳しくて1%、少し甘くて5%
④得られた標本を使って、要因1・要因2・交互作用の平方和、残差の平方和、全体の平方和を計算する
⑤分散分析表を作り、自由度、平均平方を計算する
 要因1の自由度=条件数-1
 要因2の自由度=条件数-1
 交互作用の自由度=要因1の自由度×要因2の自由度
 全体の自由度=全体のサンプルサイズ-1
 残差の自由度=全体の自由度ー(要因1の自由度+要因2の自由度+交互作用の自由度)
 平均平方=平方和÷自由度
      ※平方和=個々のデータと平均値の差を2乗した値の和
⑥指標Fを計算する
 要因1、要因2、交互作用の平均平方をそれぞれ、残差の平均平方で割ったものがFとなる
⑦F分布表の該当する自由度のところを見て、求めたFが棄却域に入っているかいないかを判定し、
 帰無仮説を棄却するか、採択するかを決める
 ・もしFが棄却域に入っていなければ、帰無仮説を採択する
 ・もしFが棄却域に入っていれば、帰無仮説を棄却し、対立仮説を採択する
⑧結論を決める

この記事が気に入ったらサポートをしてみませんか?