効果検証入門感想その２〜回帰〜

2020年3月14日 16:28

効果検証入門の第２章の感想を描き始めました。

今回はみなさんに回帰が何か伝われば嬉しく思います。

前回はRCT（randomized controlled trial）について話しました。簡潔に言うと、「検証や分析においてサンプルがランダムに選ばれていると言うことは非常に重要である。作為的にサンプルを採取していると正しい効果が検証できず、バイアスが掛かった過剰・不足のある結果が得られてしまう。」と言うことで、

「とにかく正しく分析したかったら、サンプルはランダム（無作為）にすべし」

という話でございました。

そんなこと難しいよねという話

ランダムなデータが如何にして正しい検証に悪影響を与えてしまうかは、効果検証入門の第１章を読んでいただければよくわかります。

ただ、実際にランダムなデータを手に入れることは難しいことがビジネスの現場、現実世界では多々あります。

例えば同じ場所にあるスーパーでチラシの効果を検証したくとも、お客様の半分はチラシを見せず、もう半分はみせない（そして半額セールも行わない）などできるはずがありません。

他にもお客様の地域属性、ECサイトであればお客様の偏り、季節性・時期、天気や景気様々な要素が検証データには含まれてバイアスが生じてしまいます。

完全に無作為でランダムなデータを手にすることは難しいことです。

バイアスの掛かったデータからバイアスを少なくする

効果検証入門という本の素晴らしい部分は、このバイアスの掛かった現実世界のデータから少しでもバイアスを減らし正しい効果を見積もること手法が載っていることです。

その中の手法の１つに回帰があります！

ただ少し難しい領域なので、復習も兼ねてゆっくり記事にしていこうと思います。

まずは回帰分析の一番の基礎、単回帰分析です。

単回帰分析

単回帰分析とは予測したい数を、何らかの別の１つの数を使って予測することです。

例えば、

身長を体重から予測する

成績を勉強時間から予測する

収入を年齢から予測する

マグロの漁獲量を餌の投下量から予測する

などと言うことです

このしろくまの海では餌を投げ込む投げ込むほどマグロが取れる様です。

すると大体100匹程度の小魚を海に投げるとマグロが１匹ずつ増えていく（何もしなくなくても2匹くらいは取れる）傾向が掴めた様です。

（しろくまのみなさんはマグロが食べたいので、マグロをとることがどれだけ大変かに興味津々です）

このとき予測したいのはマグロの漁獲量＝これを目的変数と言います。

そして予測するために小魚を与えた数＝これを説明変数と言います。

単回帰分析は目的変数を説明変数で説明する分析方法になるわけです。

単回帰

これがどうして効果検証に利用されていくかは、次回以降の回で話していければと思います。

お読みいただきありがとうございました。

この記事が気に入ったらサポートをしてみませんか？