非分析者も知ってほしいABテストでの統計的仮説検定やサンプルサイズ設計の考え方について

2022年7月28日 20:39

データアナリストをやっていて、よく受ける相談の１つとして、「ABテストしたいけど、どのくらいサンプル数を用意すればいいの？」というものがありです。
何となく統計を使ってABテストをうまく判断できる、といったことを理解している人は存在しても、実際にその考え方をうまく理解している人は少ないように感じています。

今回は、その考え方についてと実際にサンプルサイズをどのように考えればよいかをまとめようと思います。

tl;dr

統計的仮説検定は、対象とする集団の間に統計的有意差があるかを判定する
統計的有意差はあくまで統計的に違いがあるかを判断するため、実用上のに意味のある違いであるかは別途検討する必要がある
統計的仮説検定は、確率的に判断を行うため、一定の確率で過誤が生じうる
どの程度の過誤を許容するか(有意水準、検出力)とどの程度の差を見積もるか（効果量）から、必要なサンプルサイズを見積もることができる
その他に色々な要因があるため、仮説検定による判断が必要な時は、事前に有識者に確認を取るべし

細かい統計的仮説検定の話は扱わない。
詳細が知りたい方は、こちらを参考されると良いと思います。

統計的仮説検定とは

統計的仮説検定とは、おおまかに説明すると、対象となる集団間に統計的な違いがあるかを推定する手法です。

よく使われる検定方法として、平均の差の検定と比率の差の検定があります。
対象からそれぞれ一定のサンプルを抽出し、そのサンプル群の差や比率を比較し、統計的上違いがあるかを判断するものです。
例えば、ECサイト運用の中で、商品の卸状況をみて一部の商品クーポンを設計し、CRMツールを使いクーポンを配布することを考えます。その際に、配布したユーザとそれ以外とで、ユーザあたりの月単価や購買率に違いがあるか比べることができます。

統計的仮説検定の強みは、統計学な裏付けから、対象としている集団の違いが誤差なのか、それとも誤差ではない統計的に意味のある差なのかを判断できる点です。
この統計的に意味のある差のことを「統計的有意差」あるいは「有意差」と呼びます。

統計的有意差に関する落とし穴

統計的有意差は、あくまで統計的に違いがあるのかを示します。
そのため、統計的有意差があっても、実用上意味のない場合があります。

前述の例で、クーポンを配布したユーザが配布していないユーザに比べ、月単価が0.001円上がったことに対して統計的有意差があると分かったとします。
これを受けてクーポンを定常的に配布する運用を追加で行うに値するかは微妙ところです。100万人規模のサービスでも月あたり1000円の売上げアップですが、それに対して追加で生じる人件費が見合うかどうかは、とりあえず売上ベースでの判断では難しいです。

このように統計的有意差がある=実務上でも意味があると判断するのは危険です。
あくまで統計的有意差とは別に、その違いに意味があるのかを判断する必要があります。

この話は、以下の記事でも取り上げられているので、より詳しく知りたい方は、是非参考してください。

統計的有意差と過誤

統計的仮説検定は、あくまで統計学に基づいて確率的に判断をするため、間違った判断をしてしまう可能性も存在します。
おおまかには2つの誤った判断が存在し、これを第1種の過誤と第2種の過誤と呼びます。

それぞれ先のクーポンの例で説明すると、

第1種の過誤
- 本当は単価は同じなのに、差があると判断する
第2種の過誤
- 本当は単価に差があるのに、同じであると判断する

（分かる人向け：ここでは帰無仮説として単価に差がないとおいてるよ）

統計的仮説検定を行う際には、それぞれの過誤を起こす可能性を考慮して、その設計を行う必要があります。

統計的仮説検定のサンプルサイズ

さて、ようやくサンプルサイズの話になりますが、サンプルサイズは過誤を起こす可能性を抑制するのに関わってきます。
おおまかには、どの程度過誤を起こす可能性を抑止するかというパラメータ(有意水準、検出力)を設定します。
これは、過誤の可能性を低くしようとすればするほど、大きなサンプルサイズが必要となります。

また、同時に効果量というパラメータも考慮します。
これは、比較したい値にどの程度の差を見積もるかという値で、この値がお小さければ小さいほど大きなサンプルサイズが必要となります。

有意水準、検出力、効果量が定まると、具体的にどの程度のサンプルサイズが必要なのか見積もることが出来ます。

その他のトピック

比較群数の影響

ABテストの中で、比較対象を複数用意するというケースが存在します。
こういったケースは、よりサンプルサイズが必要となる場合が多いです。

複数の対象に対して、統計的仮説検定を行う際には、多重比較という問題が発生します。
何度か述べている通りで、統計的仮説検定はあくまで確率的に違いがあるかどうかを比較する手法で、どうしても過誤が発生してしまいます。
複数の対象に対して比較を行うと、偶然過誤が発生してしまう可能性が高くなります。
これを解消する手法はあるのですが、同程度の有意水準や検出力を保とうとすると、結果的にサンプルサイズを増やしていく必要があります。

この記事が気に入ったらサポートをしてみませんか？