[備忘録]パーミュテーション検定(permutation test)

脳波解析で頻繁に用いられる検定手法。ノンパラメトリック手法に分類され、スペクトルグラムなど時間周波数成分を持つ信号の解析に対して非常に有効である、らしい。

Permutation Testとは?

そもそも統計的仮説検定は以下の様に大きく二分される。

母集団モデル(population model)

t検定や分散分析などの多くの統計的推論はこちらのモデルの元で成り立っている。ここでは標本が母集団を代表し、それぞれに独立して同じ確率分布に従う確率変数であることを仮定している。仮説検定は以下の様に行う。

  1. 想定される母集団の分布の母数に対して検定統計量を考える。

  2. 検定統計量の分布を漸近する場合も含めて考える。

  3. 母数に対する仮説を、標本をもとに検討する。

以下は母集団モデルに即した2群間比較の例である。

母集団$${A}$$から無作為に抽出された$${n_A}$$個の標本(群$${A}$$)と母集団$${B}$$から無作為抽出された$${n_B}$$個の標本(群$${B}$$)を考える。ここで母集団$${A}$$、$${B}$$の分布はそれぞれ$${\theta_A, \theta_B}$$を母数とした分布$${G(\theta_A), G(\theta_B)}$$に従うとする。

母集団$${A}$$:$${Y 〜 G(\theta_A)}$$
母集団$${B}$$:$${Y  〜  G(\theta_B)}$$
サンプルサイズ$${n_A}$$の標本:$${Y_{A} 〜 G(\theta_A)}$$
サンプルサイズ$${n_B}$$の標本:$${Y_B 〜 G(\theta_B)}$$

 群$${A}$$、群$${B}$$の標本の応答(観測値)は、それぞれの母集団の分布に従う。すなわち、それぞれの群の観測値は$${\theta_A, \theta_B}$$をパラメータとした分布に従うことになる。

ここで群$${A, B}$$間の比較を行う場合、観測値から得られたパラメータ$${\theta_A, \theta_B}$$に対して以下の様に帰無仮説を仮定する。

$${H_0: \theta_A = \theta_B}$$

多くの場合はここから尤度を用いて帰無仮説の推測を行う。例えばt検定の場合は、分布$${G}$$を$${\theta_g = (\mu_g, \sigma^2)}$$を母数とした正規分布と仮定し、各群の平均値について以下の帰無仮説を検定する。

$${H_0: \mu_A = \mu_B}$$

無作為化モデル(randomization model)

 前述の母集団モデルにおいて無作為抽出の仮定が成り立たない場合を考慮して考えられた手法。ほとんどの場合、異なる母集団からそれぞれに無作為抽出した実験参加者を集めることは困難であり、非無作為的に選択された実験参加者を無作為に群に割り付ける手法(無作為化)が一般的である。このモデルでは、この割り付けの際に生じる割り付けラベルのデータ列$${(A,B,B,A,B,A,A )}$$を確率変数として捉える。

このとき、考えられうる全ての割り付けの場合について検定統計量を考えるのがパーミュテーション検定(permutation test)である。

パーミュテーション検定

想定される割り付けのデータ列$${w = (1, 2 , \dots, \Omega)}$$に対する、検定統計量を$${S_w}$$とする。観測値の割り付けのデータ列が$${w_{obs}}$$であり、これに対する検定統計量が$${\S_{obs}}$$となる場合、パーミュテーション検定の両側$${p}$$値は以下の様に与えられる。

$${p = \sum_{w = 1}^\Omega I(|S_w - \bar{S}| \geq |S_{obs} - \bar{S}|) Pr(W = w)}$$

ここで、$${\bar{S}$$は検定統計量の平均値$${\sum_{w=1}^{\Omega} S_wPr(W=w)}$$を表す。また$${I(・)}$$はカッコ内の条件が真の時1を偽の時に0を返す指標関数である。

[例]

以下の様な2群が与えられたとする。

オリジナル
$${A}$$群: $${A = (60, 54, 75, 48, 55)}$$
$${B}$$群: $${B = (49, 76, 65, 58, 62)}$$

$${\mu_A = 58.4, \mu_B = 62.0}$$

それぞれのデータの値を保持したまま、$${A=5, B=5}$$のサンプルサイズを保った上で並び替えを行ない、検定統計量の検討を行うのがパーミュテーション検定である。

並び替え一回目
$${A}$$群: $${A = (75, 49, 58, 48, 76)}$$
$${B}$$群: $${B = (55 , 62, 65, 60, 54)}$$

$${\mu_A = 61.2, \mu_B = 59.2}$$

並び替え二回目
$${A}$$群: $${A = (58, 65, 49, 76, 55)}$$
$${B}$$群: $${B = (62, 75, 48, 60, 54)}$$

$${\mu_A = 60.6, \mu_B = 59.8}$$

 以上の並び替えの組み合わせは$${{}_{10}C_{5} = 252}$$通り存在する。全ての並び替えを行なった時、オリジナルの2群間の平均値の差が偶然生じたものであれば、252通りの組み合わせの中に平均値の差がオリジナルよりも大きくなる場合が頻繁に現れるはずである。観測値より平均値の差が大きくなたった場合が9通りだった場合、偶然に観測値の差が生じる確率は$${\frac{9}{252} = 3.57\, \%}$$となり、有意水準5%の場合、$${A}$$群と$${B}$$群の母集団に違いがあると推測できる。

入れ替えは何回行うべきか?

 以上のように、サンプルサイズや試行回数が大きくなると組み合わせの数が大変なことになってしまうのが容易に想像がつく。
全体のサンプルサイズが$${N}$$、$${A}$$群のサンプルサイズを$${n}$$、標本$${A, B}$$における試行回数がそれぞれ$${n_A, n_B}$$のとき、組み合わせの数は$${{}_N C_{n}\times n_A \times  n_B}$$通りとなる。
 脳波解析では一般に1000回ほどの組み合わせを検討すれば十分とされるらしい。

参考にした記事など

長谷川貴大 「統計モデル:母集団モデルと無作為化モデル」 保健医療科学Vol.60 No.1 pp.38-43 2011


この記事が気に入ったらサポートをしてみませんか?