データ分析における"難問"―その①
ビジネスの現場でデータ分析を使って意思決定を支援するような活動にとって、どうしても簡単には解けない難しい問題というのがいくつかあると思う。
私は、今のところ以下の3つを難問だと考えている。
1. 相関ではなく因果が知りたい。
2. 現在の規模ではなく、伸びしろが知りたい。
3. カスタマーがサービスと接触する前後について知りたい。
今日はそのような難問について説明したい。もしかしたら私が悩んでいるだけで世の中には既に確立した手法があるのかも知れないので、もし解き方をご存知の方が居たら教えてください。
今日は、今あげた3つの難問のうち「1. 相関ではなく因果が知りたい」について話したいと思う。
ちなみに、この3つの中では1.の問題が一番沢山の先人が挑んでいて、一番解ける可能性が高い問題だと思う。
1. 相関ではなく因果が知りたい
ご存知の方も多いかも知れないが、相関関係があると言う事は因果関係がある事を意味しない。例えば、チョコレートの消費量とノーベル賞受賞者の人数には相関関係があるが、これは因果関係とは言えない。
似たような話がビジネスの現場でもたくさんある。
例えば、「インストール直後のアプリ接触時間が長いほどその後の継続率が高い」というデータがあるとする。このような分析結果を出すこと自体はさほど難しくない場合が多い。
しかし、一方で「では、その接触時間が長くなるような施策をおこなえば継続率が上がるのか? どのくらい接触時間が上がれば、どのくらい継続率が上がるのか?」という問いに答えるのは簡単ではない。
ビジネスの現場で知りたいのは基本的に後者の問題である。
これが「相関ではなく因果が知りたい」という問題だ。
因果の調べ方: RCT
この問題にデータから答える方法は、大きく分けて2つあると考えている。
まず、RCT(ランダム化比較試験)が行えるかどうかが大きな分かれ目になる。
RCTというのは学術的な呼び方で、一般的な言い方に換えると「統計学的にキチンとデザインされ, 実施されるA/B test」の事である。
詳しい説明は省略するが、RCTを行えば先ほどの難問にある程度答えを出すことができる。だから、RCTさえ実施できるならこの問題は解ける可能性が結構ある。先ほどの例で言えば、カスタマーの一部を対して「施策を行うAグループ」と「行わないBグループ」に無作為に割り当てて、AとBとの効果を比較すればよい。( ただし統計学的にキチンとやらないとだめ )
しかし、この先にさらなる問題がある。
大きな事業の場合、僅かな改善の効果が重大な結果をもたらす。
例えば、年商100億円の事業では年1%の売り上げ増は1億円分の売り上げ増であるし、年商1000億円の事業では1%の増は10億円分の売り上げ増になる。
だから、A/B testの小さな差が、本当に改善された結果による差なのか、それともただの偶然の上下なのかが重大な違いになる。そしてそれを行うには高度な統計的知識が必要なのである。
また、結果が分かるまでのスピードも重要になる。現代的なサービスでは改善のサイクルを高速に回していることが多い。うまくいったかどうか分かるのが1年後では遅いのである。1年後より1ヶ月後に分かった方がいいし、1ヶ月後より1週間後、サービスによってはもっと早く結果が分かる事が望ましい事もあるだろう。
これららの問題について参考になる分野がある。それは臨床研究と呼ばれる分野だ。臨床研究の専門家達は、薬剤AとBどちらの効果が高いのか?と言った研究課題と長い間対峙してきた。このような課題には、ここまでに述べたような問題と近い性質があって、臨床研究の知見はビジネスにも非常に役立つ。
例えばこの本などが非常におすすめである。
という訳でRCTができる場合は、相関関係ではなく因果関係が分析できる可能性が高いが、そこには統計的知識に裏打ちされた、早く、正確な分析が必要になる。
因果の調べ方: 計量経済学的アプローチ
そして、さらなる難問がある。それは「A/B testが実施できないけど因果が知りたい」というケースだ。
例えば、飲食店を探すためのアプリについて「実は、夜にアプリを立ち上げて飲み会のためのお店を探してもらうより、昼にアプリを立ち上げてランチのためのお店を探してもらった方が、サービスとの接触頻度が上がって継続率が良くなるのではないか?」という因果関係についての仮説があったとしよう。
この仮説をA/B testで検証するのは難しい。
なぜなら、カスタマーに対してAグループの方はお昼にアプリを立ち上げてください、Bグループの方は夜にアプリを立ち上げてください、などと依頼する事は困難だし、仮にそのような依頼をしたとしてもキチンとしたA/B testにならないからだ。
このような問題については、計量経済学の知見が役立つ。とある法改正の経済効果を測りたい場合に、国民をAグループとBグループに分けて別々の法を適用し効果を比較するなどと言う実験は出来ないと言った問題があるからだ。
もちろん、このアプローチにも限界がある。ここでは詳しくは説明しないが、A/B testを行わずに因果関係を分析するためには満たすべき前提条件があり、その条件を満たすのが結構困難なのだ。
そして、もちろんこのようなアプローチを取るためには高度な専門知識が必要である。
まとめ
「相関ではなく因果が知りたい」という難問がある。
RCTが実施できる場合は、因果関係を分析できる可能性があるが、早く、正確に、わずかな差しかない因果を分析するには高度な知識が必要。
RCTが実施できない場合は、計量経済学的アプローチで因果関係を分析できる可能性があるが、実施に必要な前提条件が満たせない場合が結構ある。そしてやはり高度な知識が必要となる。
感想
と言うわけで「相関ではなく因果が知りたい」と言う問題は、基本的にはデータ分析者に高度な知識が求められるが、その知識を持っているのか? というスキルの問題がしめる割合が結構大きい。なにしろ臨床研究も計量経済学もその分野の研究を一生かけて行う人がゴロゴロ居るほど深いテーマなのだから当然そうなる。
これをデータ分析者個人のキャリアという観点から考えると、ドメイン知識、プログラミング、レポーティングスキルなど、その他のスキルを身に着ける事と、臨床研究や計量経済学のスキルを身に着ける事とのリソースの配分の問題、身に着けるスキルの優先順位の問題と言えると思う。
また、組織という観点から考えると、このようなスキルセットを外部に委託するのかそれとも専門部署を立ち上げるのか、それともデータアナリスト全員に対してこのようなスキルの底上げを図るのかというスキルの調達方法の問題と言えると思う。
そして、もう一つ観点がある。他の難問についてもいえることだが、そもそもデータ分析だけで解決をはかるべきなのかという観点だ。
例えば、ある仮説に対して、データ分析だけで挑むよりも、以下のように、
・データアナリスト「少なくとも相関はある」
・ドメインスペシャリスト「その相関はおそらく因果である。根拠は勘」
・カスタマーサポート「その仮説を裏付けているかも知れないケースを少数だけ観測した」
などなどの不確実性が高い根拠(?)を一線、二線、三線と重ねていって、その不確実性を受け入れた上で投機的に意思決定した方が効率的なんじゃないか? という決断もあり得るかも知れない。
求めているのは、100%正しい根拠でもなければ、学術的に正当性がある事でもなく、自社とカスタマーにとってのバリューを最大化する事だからだ。
だから、客観的に実証できておらず、たまに間違える意思決定であっても、それを補って余りあるだけの別のメリットがあり、その方がリターンが大きくなるのであれば、それで良い。という決断も選択肢になりえる。実証されているという事はトレードオフ可能な要件の一つでしかないかも知れない。と、私は考えている。
最後に
このマガジンでは毎週月曜日に主にデータ分析の観点で企業と顧客に価値を届ける方法について検討し発信しています。
もし今回の記事が興味を惹かれる内容でしたらぜひフォローしてください。
また、twitterアカウントではこのnoteの更新情報をツイートしていますので、よかったらフォローしてください。