見出し画像

なぜA/Bテストをする必要があるのかという話

こんばんは、データアナリストの志賀です。最近健康を意識するようになり、朝ランを取り入れているのですがすこぶる調子良いです。



今回はWeb業界では必ずと言ってもいいほど使用されている「A/Bテスト」についての話をしようと思います。

A/Bテストについてのノウハウは既に色んなところで公開されているので今更語る内容もほとんどないのですが、一方でなぜA/Bテストが採用され続けているのか、A/Bテストの大元となる考え方などはあまり見かけなかったので今回はその辺りを中心にお話ししようと思います。


A/Bテストの定義

とある施策の介入効果を検証するためにAとBの二群に分けてテストすることを指します。
AとBの割り付けは完全にランダムとし、テストする期間は全く同時期に行います。

この時

一方(Aグループ)では、何も介入を受けないグループ (= 対照群)
もう一方(Bグループ)では、施策の介入を受けるグループ(= 介入群)

とします。

ここで重要なのは、AとBどちらも介入群としてテストするのはあまり良くないということです。

どちらも介入群としてテストをしてしまうと、どちらの施策が良かったかというだけの判断しかできず、相対的な効果の大きさを表しているに過ぎません。



A/Bテストをする本当の理由

A/Bテストはシンプルかつポピュラーな手法ゆえに、単純に施策の効果があったかどうかという意味でしか使われない場合が多いように思えます。

この手法が本当に優れている部分は高い精度で「因果関係」を検証できるという点です。
つまり、「今回の施策のおかげで数字が伸びた」とほぼ言い切れるぐらい因果関係を示すのには優れた手法がA/Bテストです。


一般的には因果関係を厳密に図ることは難しいです。

効果検証(因果推論)の難しさ

なぜ因果関係を厳密に図ることが難しいとされているのでしょうか。

以下の例を考えます

広告の出したことによってアイスクリームの売り上げが前年比40%増加した

この場合、広告の影響で売上が増加したという判断はできるでしょうか?
つまり「広告を出した(原因)から売上が増加した(結果)」という因果関係は認められるでしょうか。


一見すると明らかに広告のおかげで売り上げが伸びたように思えますが、答えはNOです。

例えば前年と比べて気温が高かった場合はどうでしょうか。広告を出した年の夏がたまたま猛暑で、気温の影響でアイスクリームの売上が増加したという可能性が考えられます。

あるいは前年度より経済状況が良くなって、その影響で全体的に売り上げが伸びたということも考えられそうです。
あるいは、今年はたまたまインフルエンサーが美味しいという口コミを投稿したから売り上げが伸びたなど考えられます。

このようにたった1年違うだけでも、立証したい因果関係とは違う影響が作用してくるのです。


因果関係を示すことが難しい一番の理由は「立証したい因果関係とは関係のない要因が影響している可能性があるということを排除できない」ことにあります。



なぜA/Bテストだと因果関係を示せるのか

ではなぜA/Bテストだと因果関係を示せるのでしょうか。

それはAとBの2つのグループが完全にランダムに振り分けられた場合かつある程度のサンプルサイズがあれば、両者は統計的には同質の集団として見なせるからです。



直感的に理解できるように少し話を変えます。

もしも我々が生きている世界とは別にパラレルワールドのようなものが存在し、全く同じ個体が存在するとします。
全く同じ自分が2人存在し、全ての行動が決定論的に同一である場合です。

この場合は因果関係を示すことは簡単になります。
現実世界を対照群とし、もう1つの並行世界を介入群として実験して介入効果の差分を取るだけで因果関係を示せます。(バタフライ効果など考慮すべき点はありますがここでは無視します)

先程のアイスの例で言うと、現実世界では広告を打たない、並行世界では広告を打って売上の差分を取るだけですね。

両者の世界では「アイスの広告を打つ」という介入以外は全ての同じ世界線なので、アイスの売り上げの因果関係に影響しているのは「広告を打つ」だけです。なので両者の差分を取るだけで十分というわけです。

ただし当然ですが、現実ではパラレルワールドのようなものは存在していないのでこのような実験はできないですね。

ここで言いたいことは、因果関係を導くことの難しさには「もしも」のデータが観測不可能だからです。
アイスの広告を打った場合は広告を打っていない世界線は観測できず、逆も然りでアイスの広告を打たなかったら広告を打っている世界線を観測することはできません。



先程述べた通り、A/Bテストではランダム割り付けかつある程度のサンプルサイズがあればAとBの両者は統計的には同質の集団です。

AとBの集団が統計的に同質という部分が大事なところです。完全にランダムに割り付けられた場合、両者は統計的に同質ということが数学的に証明されているのです。


この統計的に同質の集団こそが「パラレルワールドのようなもの」を擬似的に作り出すことを実現しているのです。


ABテスト VS 前後比較

「いやいや、ランダムに割り付けてABテストなんかしなくても施策を打つ前と後で指標の差分を取れば良いのでは?」と疑問を持たれた方も中にはいるかと思います。

確かに、施策に大きな効果があれば前後比較で施策の効果検証は判断しても問題ないと思います。

ただ実際には1つの施策で大きな効果を示すような施策というものは少なく、判断に困る場合がほとんどです。



例えばとある指標が施策を打つ前に比べて3%向上した!という結果があったとき、果たして本当にその施策の効果なのでしょうか。

その3%の向上はもしかしたら時期的なトレンドによるかもしれません。時期的なトレンドなら昨年同時期と比較すれば良いと思われるかもしれないですが、昨年はまた別の施策を打ち出していてその影響が出ている可能性もありますしあるいは事業方針が変わっていてユーザー属性が変わっているだけかもしれません。
このように前後比較だと施策以外の影響をどうしても排除しきれないのです。


施策以外の影響を簡単に取り除くことができることこそがA/Bテストの最大の強みと言えるでしょう。



A/Bテストの元となるモデル

今となってはWeb業界で当たり前のように使われているA/Bテストですが、実は疫学の分野で用いられているRCT(ランダム化比較試験)というものが非常に似たようなモデルとなっています。
(A/BテストもRTCもやっていること自体は全く同じでA/BテストはWeb、RCTは臨床試験という文脈の違いでしかないと思います)

RCTとは、例えばある新薬の効果を検証したい時に完全にランダムな割り付けで対照群と介入群の2グループに分けて、両者の効果差で検証するといった手法になります。
もっと簡単に言うとRCTは A/Bテストの臨床試験バージョンと捉えてもいいかもしれません。



臨床試験ではRCTで実験を行いたくても、無作為に抽出された人に対して新薬を強制的に飲ませないといけないといった倫理的な壁があるので、実施するのは難しいかなと思います。



RCTは臨床試験の結果の信頼性を表すエビデンスレベルの中でも最上位に位置します。

画像1

▲エビデンスピラミッド
上に位置するほど信頼度が高い


このように疫学ではかなり信頼度が高いとされているRCTですが、倫理的な問題があるために実施することが難しい。
一方で、A/Bテストでは倫理的な問題は発生しないので実施することが可能であり、因果推論として高い精度がある。ということです。




A/Bテストを設計する上で気をつけるべきこと


1.  グループ分けは完全にランダムで行う

繰り返しになりますが、A/Bテストのグループ分けをする際は必ずランダムに行う必要があります。
ランダムに振り分けないと、選択バイアスが発生してしまい統計的に同質な集団が得られなくなってしまいます。



2. テストは同時期に行う

こちらも繰り返しですが、同時期にテストを行わないと時期的な影響が排除しきれないです。これは1週間という短い期間でさえも時期的な影響が発生し得るので、可能であれば同時期にテストを行うべきです。



3. 同質の集団でならなければならない

先ほどランダムに振り分け場合、両者グループは原則統計的には同質の集団になる、と言う話をしました。
しかし、何らかのシステム上のバグやAB割り当てのロジックの偏りなど予期せぬ事態が起こり得ることも考えられます。

この場合、事前にAAテストを打っておいて振り分けられた集団が同質であることを確認することが望まれます。
AAテストなので介入による差は出ないはずであり、差が出た場合は何らかの理由で同質の集団とは言えないということになります。

A/Bテストの前提条件として、ランダムに振り分けられた集団は同質の集団という性質を利用しているのでAAテストで差が出てしまった場合はA/Bテストの効果検証は施策介入以外の影響が出てきてしまい、正しく検証を行えなくなります。


4. ある程度のサンプルサイズで実装が必要

統計学を少しでも学んだことがある人なら耳が痛くなるほど聞いたことがあると思いますが、サンプルサイズが少ないとバラつきが大きくなるという問題があります。

コイントスで表裏を集計した時
・試行回数10回で7回表
・試行回数1000回で700回表
この2つを見比べると試行回数10回のものは偶然かなと思いますが、試行回数1000回のものは流石に表が出やすいイカサマコインだということは直感的にもわかるのではないでしょうか。



参考





最後に

ツクリンク株式会社では建設業界を変えていく仲間を絶賛募集中です!!市場規模の大きくてポテンシャルの大きいこの業界を是非一緒に変えていきませんか?
最初はカジュアルなお話だけでもOKなので少しでも興味ある方は是非応募してみてください!

プロダクト開発
セールス
CS
コーポレート


この記事が気に入ったらサポートをしてみませんか?