いまさら聞けない「統計的に有意な差」の意味
「実はよくわからない…」状態から脱しよう
「統計的に有意な差が見られた」
リサーチに携わっている方、あるいはリサーチ結果を活用して意思決定を行う立場にある方は、時として出会う言葉だと思います。
多くの場合、リサーチによって何らかの特徴や傾向が見出された場面で登場する言葉です。どちらかと言うと「何となく、言えると嬉しい言葉」だろうと思います。
2つ以上の平均値(または割合)を比較して、その差が統計的に有意かどうかを確認する手続きは、統計ソフトを使えばそれほど難しくはありません。一度覚えてしまえば簡単にできます。
統計学の知識がなくても、統計ソフトを使えば結果が出力されてしまう。報告書に記載できてしまう。この簡単さが「統計的に有意という言葉の意味を、正直なところよくわかっていないけど、ま、いっか」という状態を生み出すことになります。
無論、言葉の正しい意味を理解しておくことはとても重要です。実務の領域では、正しく意味を理解できていないことに起因する拡大解釈、誤った判断がなされてしまうことがあります。
本記事ではこの問題を解説していきます。
母集団とサンプルの関係
少し遠回りになりますが前提から確認しましょう。
リサーチを実施して、女性30代、400名に対して「コンビニに行く頻度」を尋ねるアンケートを実施したとします。このとき、この400名は「世の中全体の女性30代」という大きな集団の傾向を推し量るために、たまたま選ばれた調査協力者です。世の中全体の女性30代のことを母集団と言い、400名のことをサンプル(標本)と言います。
データの精度という観点では、世の中全体の女性30代全員にアンケートができたほうが良い。揺るぎない「真実」がわかります。もし、本当に全員に調査ができたら、その調査を「全数調査」と呼び、全数調査で得られる統計値を「真値」と呼びます。
ただ、全数調査が実施できるケースは稀なケースです。たとえば女性30代全員にアプローチしようとすると、膨大な費用と時間が掛かりますし、アンケートに協力してくれる方も限定的でしょう。要するに不可能なのです。よって、多くの場合サンプリング調査が行われます。
話を少しでもわかりやすくするために、違う例で話を進めます。
とっても大きな湖を想像してみてください。その湖にはたくさんの魚が気持ちよさそうに泳いでいます。あなたは、魚の大きさに興味があります。この湖で泳いでいる魚の大きさが平均何センチか知りたいと思っています(そういうことにしてください)。
湖のなかで泳いでいる魚を全部釣り上げて測定すれば、平均がわかる。これが全数調査であり、得られる結果が真値です。ただ、そんなことは現実的に不可能なので、何匹か釣り上げて測定して平均値を計算し、「この平均値が湖の中にいる魚全体の平均値と近いだろう」と見なす(推し測る)ことになります。これがサンプリング調査ですね。
サンプリング調査の結果は毎回微妙に異なる
さらに想像力を働かせてください。あなたは昨日、湖で魚釣りを行って「平均30cm」という結果を得ました。さて、今日も同じことをしてみました。すると、今日は「平均32cm」という結果が得られました。昨日と今日で調査結果が異なってしまいました。
これはどういうことでしょうか。一夜にして、湖の中の魚が入れ替わったのでしょうか?それとも魚が急成長したのでしょうか。もちろんそんなことはないわけです。昨日釣った魚、今日釣った魚どちらも母集団(湖の魚全体)の中からランダムに釣り上げた、言わば偶然釣り上げた魚ですから個体差があるわけです。よって平均値が微妙に異なることは「そりゃ、そんなこともあるでしょう」という現象です。
ここはとても大事なポイントです。同一母集団からサンプリング調査を実施した際、その調査結果が微妙に異なることは「普通の出来事」。つまり、サンプリング調査においては、平均値を比較したときに微妙な差があるのは自然なわけです。
では、ここでいう「微妙な差」というのはどれくらいの差でしょうか。統計学では、同一母集団に対してサンプリング調査を100回行った場合、うち95回の平均値がこの範囲に収まるという幅を「信頼区間」として計算できます(信頼区間の計算方法はちょっと難しいので割愛します)。今回の例でいうと、100日かけて毎日魚釣りをして、釣り上げた魚の平均を計算すると、95日の結果はこの範囲に入る、という幅を計算できることになります。
仮に信頼区間が25cm~35cmだったとします。今日、魚を釣り上げて平均を計算した結果が33cmだったとしても、「まあ、あり得ることだね。今日もいつもと変わらないね」と認識することができるわけです。
信頼区間を超える差が確認される場合
ある日、いつもと同じように魚のサイズの平均を計算すると「40cm」という結果がでました。これはこれまでと状況が異なります。微妙な差として許容できる信頼区間を逸脱してしまっているわけです。
この事態をどう理解すれば良いか。信頼区間を飛び越えているわけです。「100回中、95回はこの範囲におさまる」という幅から逸脱しているわけです。同一母集団に対するサンプリング調査の結果としては「確率的にほぼ起こりえない現象」が観察されたわけです。
このような状況に対して、統計学では、「確率的に起こりえないことが、なぜか起きてしまったと考えるのではなく、同一母集団であるという前提を否定しよう」という論理を採用します。
信頼区間におさまるような微妙な差は「サンプリング調査では良くあること。意味がある差とは思わなくても大丈夫」と考える。この考えを持ち続けることができないほどの差が検出されたときに、「そもそも同一母集団に対するサンプリング調査ではないのでは?」と考える。今回でいうと「今回、魚釣りした湖は、いつもと同じ湖ではないはずだ」と考えるわけです。
実際、あなたはいつもの湖ではなく、別の湖で魚釣りをしたことを思い出します(そんなうっかりさんはいないと思いますが)。つまり、湖が違ったということ、母集団が違ったということです。今回釣りをした湖の魚は、いつもの湖の魚と比べて、実際にちょっと大きいということになりますね。
ようやく本記事の結論に到着しましたが、こうした一連の判断手続きを「統計的に有意差がみられた」と表現します。
改めて「統計的に有意な差がみられた」を説明します。
同一母集団に対するサンプリング調査の結果は毎回微妙に異なるので、2つの平均値を比較すると差があって当然。ただし、確率的に起こりえないほどの差があるときに、そもそも母集団が同じと主張できなくなり、母集団における平均値が違うと言わざる得ない(そう言わないと説明できない)と判断することなのです。
実務上の留意点
要するに、「統計的に有意な差がみられた」とは「同じ母集団からのサンプリング調査の結果とは確率的に判断されない。母集団が異なると考えたほうが自然」という意味であり、それ以上でも、以下でもありません。
したがって、実務上(たとえばマーケティング施策を考えるうえで)意味があるかどうかは別次元の話です。
湖の魚の例に戻りますが、湖Aの魚の大きさは平均30cm、湖Bの魚の大きさは平均40cmだとして、湖Bだけで魚釣りをする必然性があるかというとそうでもない。魚釣りを楽しむだけであれば、どちらの湖でも楽しめば良いと考えることはできます。
ちょっとこのケースはピンとこないので、別の例で考えてみます。
新商品に対する利用意向をアンケートで確認しました。1~5点満点で、高いほど利用意向が強いとする。男性4.4点、女性4.6点であり、統計的に有意な差があったとしましょう。ただ、実際は0.2点しか違わず、また、男女ともに利用意向は高いわけです。男性と女性で、母集団における利用意向の平均が違うことが確認されただけで、マーケティング上は「どっちも高いね」と考えて良い。男女両方を新商品のターゲットと見なしても良いわけですね。これは他の様々な要因を検討した上で判断すべき決めの問題と言うか、意思の問題です。
有意という言葉が独り歩きして、女性のほうがマーケティング施策上「意味があるターゲット」と拡大解釈する、そこまで明示的に報告書に記載しないまでも、何となくそういう前提で後続の施策を考えてしまうケースがありますが、母集団が同じではないというだけの話なので、強く意識したいところですね。
この記事が気に入ったらサポートをしてみませんか?