NPS調査のサンプルサイズ設計をしよう！

2018年1月17日 05:49

1. 概要

以前の記事『NPS調査のサンプルサイズ、しっかり設計していますか？』では、NPS調査の信頼性を担保するためにサンプルサイズ設計がいかに重要かをシミュレーションを交えながら説明しました。いよいよ今回は、どれくらいのサンプルサイズがNPS調査には必要なのか？にお答えしましょう。

なお、サンプルサイズ設計の式の導出は、有料（300円）でご覧になれます。統計学の厳密な議論に慣れている方 / 導出過程が気になるという方は、宜しければこちらをお買い求めください。

2. サンプルサイズ設計の鍵は「ズレ」

NPS調査を行う上で、必ず留意しておかねばならないことを復習しましょう。それは、私たちが知りたいのはお客様全体のNPSの値であるにも関わらず、NPS調査はお客様全体に実施されるわけではないという点です。通常のNPS調査は、調査コストなどの観点から、お客様のうち調査に協力してくださる一部の方々に実施されます。

要は、調査の結果得られるNPS値は、お客様全体のNPS値から多少なりともズレた値が得られる¹のでした。300名のお客様に協力を依頼してNPS値を計算するという実験を何度も繰り返してみると、実際にはお客様全体のNPS値は-50であるにも関わらず、調査結果のNPS値には-40あたりや-60あたりの値もそれなりに得られていることがわかります。

また、サンプルサイズを多くすればするほど、大きな「ズレ」は起こりづらくなるのでした。以下のグラフは、お客様全体のNPSが-50のときに、
（左）300名のお客様への調査を繰り返し実施した結果
（右）1200名のお客様への調査を繰り返し実施した結果
の比較です。

1200名にご協力していただいた調査の場合のほうが、調査結果のNPSとお客様全体のNPSとの間に大きなズレが起こりづらいことが見て取れます。特に、300名の場合ではしばしば得られていた-40あたりや-60あたりのNPS値が、1200名の場合では滅多に得られていないことが分かります。

もし「ズレ」と「サンプルサイズ」との間の関係を明らかにすることができれば、よく起こりうるズレの大きさをサンプルサイズの設計によって、ある程度制御することが出来そうです。

3. 「サンプルサイズ」と「ズレ」の関係

「サンプルサイズ」と「ズレ」の間の関係は、比較的シンプルな式で書くことが出来ます。実は、n人のお客様に調査協力していただいた場合、お客様全体のNPS値と調査結果のNPS値とで、おおよそ

以上のズレは滅多に起きないことが統計学を用いて計算できます²。逆に、この範囲にズレが収まるようなことは、起きてもおかしくないわけです。

例えば、
・300人に対してNPS調査を実施
　⇒　お客様全体のNPS値と調査結果のNPS値の間で±11.3以上のズレ
・1200人に対してNPS調査を実施
　⇒　お客様全体のNPS値と調査結果のNPS値の間で±5.7以上のズレ
は滅多に起こらないということが、この式から計算できます。

4. サンプルサイズを設計しよう

さて、調査の結果から計算されるNPSの値とお客様全体のNPSの値に±11.3以上のズレが起きても差し支えないのであれば、私たちは300名のNPS調査で十分です。一方で、±5.7以上のズレは滅多に起こってほしくないのであれば、私たちは1200名以上にNPS調査の協力を仰いだほうがよいことがわかります。

このように、何人にNPS調査に協力していただく必要があるかは、調査の結果から計算されるNPS調査の値とお客様全体のNPSの値との間によく起こりうるズレの大きさをどの程度に抑えるかによって決まります。

ついに本命の公式を掲げましょう。もし、調査の結果から計算されるNPS調査の値とお客様全体のNPSの値との間によく起こりうるズレの幅を±εに抑えたいとき、サンプルサイズnは

以上とることが望ましい。

この式から、例えば調査結果のNPSの値とお客様全体のNPSの値とのズレをなるべく±5以内に抑えたければ、サンプルサイズは1537名以上とったほうが良いことがわかります。（ε=5として計算してみてください。）

また、不必要にズレを小さくしようとすると、調査に必要なサンプルサイズが莫大になることがわかります。

（重要な注意）各社の意見と今回の結果を比較しておきます。
１．Zendesk社の『NPSのベストプラクティス』
Zendesk社の記事では、サンプルサイズ設計の公式が与えられています。この公式を用いると、ズレを±5以内に抑えるためには1025名の回答者を募ればよいと提案されます。（Zendesk社のサイトでは、ズレを±10に抑える計算を具体的に例示しており、その結果を313名としています。計算式は合っていますが、これは計算を間違えています。正しくは256名です。）なおこの値は、Zendesk社も公開していらっしゃる通り、お客様全体のうち中立者が1/3以上を占めると想定した場合の評価です。
２．SurveyMonkey社の『アンケートのサンプルサイズ』
SuveyMonkey社の記事では、NPS調査のサンプルサイズに特化した記事はありませんが、代わりに一般にYes/Noといった二者択一アンケートにおけるサンプルサイズ設計の方法を掲載しています。気を付けていただきたいのは、二者択一アンケートとNPS調査とではサンプルサイズ設計の導出が異なります。なので、この記事を参考にNPS調査のサンプルサイズを設計することはできません。
３．NTTコムによるweb担当者フォーラムの記事
NTTコムによるweb担当者フォーラムの記事では、「統計的な観点から、400サンプル以上を確保することが望ましいといえます。この場合の誤差は±5％となります」とあります。この"統計的な観点"について記載されたものを見つけることはできませんでしたが、導出過程から逆算したところお客様全体のうち中立者が3/4以上を占めると想定している場合の評価と思われます。
４．本記事
一方で、本記事はいかなる想定ができない場合でも1537名とれば、ズレを±5に抑えることができるというものです。

5. お客様全体のNPS値を幅をもって見積もるということ

最後にお客様全体のNPS値を見積もるということについて、今一度考えて直してみましょう。私たちはいま、調査結果のNPS値のみに頼らずとも、お客様全体のNPS値とのズレの起こりやすさも知っています。これはお客様全体のNPS値をより冷静に見積もる方法につながるのです。

例えば、300名のお客様に調査した結果のNPS値が-40だったとしましょう。300名の調査の場合、お客様全体のNPS値に対して調査結果のNPS値が±11.3の範囲でズレることは、起きてもおかしくない事象でした。

これは、もしお客様全体のNPSが-50だったと仮定しても、-30だったと仮定しても、おかしな話ではないということを意味します。
・お客様全体のNPSが-50だった場合：ズレは+10 (=-40-(-50))
・お客様全体のNPSが-30だった場合：ズレは-10 (=-40-(-30))
いずれも±11.3以内にズレが収まっていますね。

一方で、1200名のお客様の協力のもと得られたNPSの値が-40だったとしましょう。この場合、お客様全体のNPSに対して調査結果のNPS値が±5.7以上ズレることは滅多に起こりえないのでした。ということは、お客様全体のNPSが-50や-30だったと仮定すると、調査結果のNPS値が-40になるということはあまり起こりえず、この仮定が疑わしいと考えてもおかしくありません。

このように調査結果のNPS値からお客様全体のNPS値として仮定されてもおかしくないような値の範囲をNPSの信頼区間といいます³。お客様全体のNPS値を1つの値で無理に言い当てにいこうとせず、幅をもって見積もるのです。NPSの信頼区間は近似的には

によって計算することが出来ます。

例えば、300名のNPS調査によって得られたNPS値が-40だった場合、お客様全体のNPS値の信頼区間は-51.3以上-28.7以下になります。

なお、上で近似的と言いましたが、回答者中の批判者・推奨者の割合p₁^, p₃^が計算できる場合は、信頼区間のより厳密な式があります。例えば、

がその一例です⁴。

300名のNPS調査結果において批判者の割合が0.6, 推奨者の割合が0.2だったとき、調査結果のNPSは先ほどの例と同じく-40になります。ここで、より厳密な信頼区間を計算すると-49.1以上30.9以下となり、先程の例より少しばかり区間の幅が狭くなっていることが分かります。

ではでは、みなさんもぜひNPS調査のときは
・調査の前にサンプルサイズ設計
・結果が出たら信頼区間を計算
この2段構えで、お客様全体のNPSを推定してみてはいかがでしょうか。

《記事脚注》
¹このズレを統計学では「標準誤差」と言います。
²多項分布の性質と中心極限定理を用います。
²正確には「滅多に起きない」ことをそう定義したのですが、今回は初学者でも読めるように信頼水準の話には立ち入らないことにします。ただ、統計学をしっかり理解する上では重要な概念なので、心に置いておいてください。
³信頼区間の正確な説明は、初学者であれば『よくわかる心理統計』（ミネルヴァ書房）などを参照してください。
⁴これはWald型信頼区間という最も簡単に求められる信頼区間の例です。他にも修正Wald型信頼区間やGoodman法が知られています。もし、興味・関心を持って頂けたなら、Brendan Rocksの論文[R]をご参照ください。なお、R言語にはNPS packageがあるのですが、その開発者こそBrendan Rocks氏です。