【統計の勉強】パラメトリックとノンパラメトリックってなに?
こんにちは。プログラミング超初心者で統計解析用のR言語を勉強しています。
研究者なのにも関わらず、統計的な知識が乏しくて「ちゃんと勉強しよう!」と思ったのが、Rの勉強を始めたきっかけでもあります。
今回の記事は、群を比較するときに結構な頻度で出てくる「パラメトリック」と「ノンパラメトリック」について。
パラとノンパラで検定方法が違うとか、Steel-DwassはTukey-Kramerのノンパラ版だとか...
「ん?うん...」という感じで、良く耳にしてはいるのですが、実際に「説明して」と言われたらちゃんと説明できないと思います
もう一度ちゃんと勉強してまとめておきます。
そもそも何が違うの?
パラメトリックは英語で書くと"parametric"。
ノンパラメトリックは"nonparametric"。
"parametric"は「parameter(母数)に関する」ということ。
つまりパラメトリックとノンパラメトリックというのは、parameter(母数)によるかよらないかという違いがあります。
ここで言う母数というのは母集団を規定する量のことで、検定する対象が何らかのパラメータで規定できるかどうかがパラメトリックとノンパラメトリックの違いになってくるようです。
統計の場合たいていの場合、正規分布に従っているかどうかをによってパラメトリック、ノンパラメトリックを使い分けます。
解析対象のデータが正規分布に従っていると仮定する場合→パラメトリック
解析対象が正規分布であると仮定しない場合→ノンパラメトリック
となります。
パラメトリック検定の種類、特徴
パラメトリック検定の種類は、
・t検定
・Dunnett検定
・Tukey-Kramer検定
など。
パラメトリック検定の計算で使う値は、平均値と標準偏差。
あらかじめ正規性を確認しておく必要がある。
サンプルのサイズが小さすぎるとNG。
外れ値の影響を受けやすく、外れ値があると有意差が出にくくなる。
結果の精度は比較的高い。
という特徴があります。あらかじめ正規性を確認できるようだったら、パラメトリック検定を使うのがよさそうです。
ノンパラメトリック検定の種類と特徴
ノンパラメトリック手法の代表例は
・カイ二乗検定
・Wilcoxon順位和検定
・Wilcoxonの符号順位検定
・Steel-Dwass検定
などがあります。
ノンパラメトリック検定は母集団の分布を仮定しないので、割と使い勝手が良いのが特徴です。
得られたデータのサンプルサイズが小さい時などはこちらで計算した方が検出力が高くなります。
ただ、パラメトリックに対して精度が落ちてしまうのが欠点。
サンプルサイズっていくつからが大きいの?
サンプルサイズが小さい時はノンパラメトリック、サンプルサイズが大きくなって正規性があればパラメトリックという分類でした。
では、どこからが大きくてどれくらいが小さいのでしょうか?
サンプルサイズの決め方について調べてみたら、こちらのサイトがとても分かりやすかったので参考にしました。
サンプルサイズを決める前にやること。
・信頼係数は何%にするのか?
・誤差はどれくらいまで許容できるのか?
1. 信頼係数を決める
信頼係数はたいてい90%や95%で設定されることが多いようです。
信頼係数95%というのは、区間推定の範囲に真の値(母集団の平均値)が入る確率が95%ということ。
詳しい計算の仕方は、参考にした記事をご覧ください。
とにかく95%の信頼区間は「標本平均±1.96×標準誤差」となります。
※1.96の数値についてはまだ勉強中ですが、「標本平均±1SDだと68.26%」「標本平均±2SDだと95.44%」の確率で母平均がその範囲に入るということみたいです。
2. 許容できる誤差を決める
次に許容できる誤差を決めて、逆算すればサンプルサイズを決められます。
でも、これは母集団の標準偏差がわかっているときの話。
母集団の標準偏差がわからないときは、不偏分散の平方根を使います。
(たいてい母集団の標準偏差はわからないので不偏分散を使う)
数式はこちら、
これを実験を始める前に計算しておけばサンプルサイズを考えずに実験を始めて、追加実験で嘆くこともなくなるのではないでしょうか。
次にやりたいことは、
・Rで正規性の確認
・Rでサンプルサイズを計算するコードを書く
それでは、また!