見出し画像

Tableauでビジネス施策の成果を検証する方法①(A/Bテスト):t検定を使った統計的仮説検定

はじめに

こんにちは!Akihisa Tableau(@songshanhj)です。当たり前ですが、ビジネスでは大事な予算を使って行った施策が本当に成果を上げているのかを検証することが重要です。ですが、「本当に成果があった」と誰もが納得できる検証はできるでしょうか?施策ありと施策なしの売上を棒グラフで並べただけのA/Bテストになっていませんか?
そこで今回は、t検定という統計的仮説検定を用いたA/BテストをTableauで行い、統計的な裏付けのある施策の成果を報告する方法を提案します。

A/Bテストとは?なんのために行うのか

A/Bテストは、抽象的にいうと、2つの異なるバージョン(AとB)を比較して、どちらがより効果的であるかを判断する方法です。例えば、ウェブサイトで自社商品の見せ方をA(従来の見せ方)とB(今回の施策)の2パターン用意し、異なるユーザーグループに見せて成約率を比較します。これにより、Bの施策がより良い結果をもたらすかどうかを判断するのですが、ここで本当にAとBの施策の効果に差があると言えるのか?が問題になります。

Googleスライドで作成

t検定とは?何ができるのか

t検定は、2つのグループの平均値に差があるかどうかを統計的に判断するための手法です。具体的には、ウェブサイトに訪れるユーザーをランダムにAとBのグループに誘導して、それぞれのクーポンの成約率※(または人数)の平均値を比較します。この際、t検定を用いることで、その差が偶然によるものか、それとも統計的に有意な差があるのかを判断し、施策の効果を統計的に検証することができます。

t検定の基本概念

  • 帰無仮説:AとBで成約率に差がない

  • 対立仮説:AとBで成約率に差がある

t検定では、対立仮説を証明するために帰無仮説が棄却されるかどうかを確認します※。もしp値(この差が偶然である確率)が有意水準※0.05未満であれば、成約率に差がないことは否定され、AとBの成約率の差は統計的に有意であると判断されます。

Tableauでのt検定実施方法

TableauのHPにてt検定の紹介はあるものの、Tableau Publicにt検定自体の機能はありません。そこで、計算フィールドを使ってt検定を行います。

Tableauでt検定を実施したワークブック

データ
サンプルスーパーストア/メーカー情報/t分布表
A/Bテストのテーマ
私は、消費者向けの家電製品を販売するウェブサイトを運営しています。今回、顧客単価を上げるためにウェブサイトのクーポン画面のデザインを改善する施策を立案し、Bというレイアウトを作成して顧客単価が上昇するかどうかを検証することにしました。
そこで、2016年の間、関東のユーザには従来のAというデザイン、関西のユーザには今回の施策であるBというデザインを表示させ、顧客単価に差があるのかどうかをt検定を用いて検証しました。
なお、有意水準は少し甘めにP=0.05(95%信頼区間)としました。
ここで注意点として、本来、施策の有無の比較を実施する場合は、無作為にユーザをグループ分けします。スーパーストアには施策という概念がないため、関東と関西を無作為分類したグループと見立てています。

https://public.tableau.com/app/profile/akihisa.matsuyama1620/viz/TableautA_B/t#1

ダッシュボード内で用いた計算フィールドは上記からダウンロードしてみてみてください。t値自由度だけ計算フィールドで導出しています。

A/Bテストの結果
A/Bテストの結果、棒グラフで関東と関西の顧客単価を比較すると、関西の方が大きそうです。これをメーカーごとで見ると、ばらつきはあるものの関西の方が大きい印象があります。
ここまでは見た人の印象であり、人によっては「差があるとはいえない」と言われてしまいそうです。
次に、箱ひげ図で比較してみるとメーカーごとの顧客単価の差がもう少し客観的に示されますが、それでも差があるとは自信を持って言えません。

そこで、メーカーごとの顧客単価を使ってt値を導出し、自由度dft分布表を参照して、関東と関西の差が有意かどうかを検証します。
自由度dfが35の場合、t分布表を参照すると、t値が2.03より大きければ95%信頼区間(P=0.05)の外にあることが分かります。
今回導出したt値の絶対値は2.051であり、2.03より大きいことから、当初設定した有意水準を下回ることが分かりました。つまり、AとBの差が偶然である確率は5%未満と言えます。
以上より、関西(施策B)の方が関東(従来の見せ方)よりも統計的に有意に効果があると示されました。

余談

この問題に取り組んだ理由は、Tableauは可視化に特化しているものの、重要な意思決定においてはより統計的な根拠を示した方が、納得して決断を下せると考えたからです。統計ツールがあればコード1行でt検定を行うことができますが、統計の数量的な説得力にTableauの視覚的な説得力を掛け合わせることで、より効果的なダッシュボードが作成できたのではないかと思います。

※成約率自体の平均値を比較するのはどうなのか?
※「差がないとはいえない」が正しい表現ですが、ビジネス上「差がある」と言っても問題ないでしょうか?問題ないかと思いますが、統計的な検証を行ったことを明確にすることが重要かと考えます。
※p値がいくつを下回ったら帰無仮説を棄却できるかという有意水準は、検証前に決めるようにしましょう。後出しで有意水準を引き上げてはいけません。後から有意水準を変更することは、統計的な正当性を損なう可能性があります。


この記事が気に入ったらサポートをしてみませんか?