見出し画像

【マンガ】統計学が最強の学問である 第3話補足〜統計学以前の、「リサーチ」を「デザイン」するという考え方〜


 生のPOSデータを無事触れられるようになった勇司と貴子は、いよいよそこから「優良顧客」と「そうでない顧客」の違いをデータ分析で探すことになりました。

 こうしたデータ分析の第一歩は、貴子が「うれしいこと」と表現していた指標を具体的に決めることです。これを医学や政策科学の専門家たちはアウトカム(ムリヤリ日本語に訳すとしたら「成果指標」といったところでしょうか)と呼びます。
 
 アウトカムの定義が不十分なものであれば、いくら高度な統計学や機械学習の手法を使っても、あまり良い成果は得られません。たとえば勇司と貴子の会話にもあったように、「購買した商品の点数」をアウトカムだと考えて分析してしまうとどういう問題が起こるのでしょうか?

コラム3画像1

 今度コンビニやスーパーのレシートをもらった際によく見ていただければわかると思いますが、レジのデータには「点数(または数量)」つまり、そこに書かれた商品を同時にいくつ買ったかという情報が含まれています。この「点数」という値について、ライジンビール製品のものだけを抜き出し、ポイントカードからわかる顧客IDごとに合計していけば、確かに一見すると、「ライジンビール製品をたくさん買ってくれているかどうか」を評価する指標にできそうに思えます。

 しかし、このような指標でお客様が優良かどうかを判断してしまうと、たとえば350mlの発泡酒を過去に「10缶」買った人は、プレミアムビールの500ml缶×24本のダンボールを「3ケース」買った人よりも優良であると扱われてしまうかもしれません。

 なぜならレシート上の値としては、前者の顧客は「10点の購買」で、後者の顧客は「3点の購買」ということになるからです。発泡酒も、プレミアムビールも、サイズもパッケージ内の缶の数も考慮せずに、「何点買ったか」に関係する要因を探しても、マーケティングに活かせるようなアイディアは正しく見つかってこないでしょう。

 良いアウトカムとは、その数字が大きくなったり小さくなったりすることが、分析者や分析の依頼者、ひいては世の中にとって「確実にうれしいもの」です。また、良いアウトカムは、関係者によるズルがしにくく、どれだけ異質な状況から出てきた数字であっても、アウトカムが同じ値なら「同じようなうれしさ」になるものといえます。

 商品点数をアウトカムとして考えた場合には、1円の商品を企画して何百個も売るとかいうズルが成立しえます。「同じ点数でも商品単価が変わってくる」というようなら、きちんとその単価も考慮したうえで「たくさん買ってくれる」度合いを評価しなければいけません。

 そうした点をクリアにするために、貴子は「たとえば350mlの発泡酒ばっかり~」といった具体例をあげて、勇司のイメージする「うれしさ」を整理しようとしたのでしょう。こうした「うれしさ」についてのイメージをすり合わせたうえで、勇司と貴子は過去1年間で自社製品をどれだけの金額買ってくれたか、すなわち「総購買金額」というアウトカムを考えることにしました。

 アウトカムを決めたら、次に可能な限りたくさんの説明変数の候補を考えていきましょう。説明変数というのは、アウトカムを「説明」するかもしれない変数という意味です。機械学習の専門家たちは同じものを特徴量と表現することもあります。

 たとえば今回の例のように顧客を対象に考えるのであれば、データから可能な限りたくさんの顧客の特徴を定義しておけば、それらのうちどれが、どれだけアウトカム(今回なら総購買金額)の大小を「説明」しうるか、データ分析によって明らかにすることができます。

 顧客の特徴、と言われたら、多くの人はポイントカードを作ってくれたときに記入する性別や、同じく生年月日から判別された年代などを思いつくでしょう。ですが、もちろんこれだけではありません。住所から住んでいる地域を分類したってかまいません。ポイントカードを作ってくれた登録日が何月なのか、月の上旬なのか下旬なのか、何曜日なのか、という分類をするだけでも1つの「顧客の特徴」ですし、同じポイントカードの登録日から「ポイントカードを作ってくれてから今日まで何日経っているか」という情報を顧客の特徴として考えてもまったく問題ありません。

 また顧客の特徴を考えるうえで使えるデータは、レシート側にも存在しています。ポイントカードの登録日と同じように、レシートに印字される購買日に対して、何月なのか、上旬なのか、何曜日なのか、と考えてもいいわけです。

 ただし、一点だけ、この情報は必ずしも「顧客1人につき1つの情報」という形でとられているわけではない点に注意しましょう。ポイントカードを作る際に登録した性別は「顧客1人につき1つの情報」ですが、レシート側の情報は同じ顧客でもお買い物をするたび増えていきます。同じ顧客が水曜日に来ることもあれば土曜日に来ることもあるでしょう。

 これを「顧客の特徴」という、「顧客1人につき1つの情報」という形で扱うためにはどうすればよいのでしょうか? たとえば「過去1年間で水曜日にお買い物した回数」であったり、「過去1年間の全ての購買に占める水曜日の割合」といった形に集計すれば、顧客ごとに存在する複数の購買データを「顧客の特徴」としてまとめることができます。

 このような「顧客の特徴」、すなわち説明変数の候補が「○○な人ほどライジンビールをたくさん買っている」という分析結果の「○○」の部分になります。なので、できるだけその可能性を広げておくにこしたことはありません。

 逆に性別や年代といった限られた説明変数しか考えていなければ、いくら高度な分析手法を使おうと、「女性がよく買っている」とか「40代がよく買っている」といった当たり前の結果しか得ることはできないわけです。

 このような「どのようなアウトカムについて分析をおこなうか」「どのような説明変数の候補を考えるか」というのは、実用上とても重要な問題ですが、残念なことにデータ分析の専門書でもあまり言及されていません。また、日本国内の大学でもあまり教えられていないように思います。

 このような考え方はアメリカの大学院などでは「リサーチデザイン」と呼ばれ、研究者志望の学生が習得することを推奨されています。すなわち「研究者はどのように研究課題を考え、計画を立てて論文にしていくべきか」という、統計学やデータ分析とはまた別の科目で学ぶ思考法なのです。

 リサーチデザインと似て非なるものとして、「仮説を立ててから分析すべき」とか「仮説を考えるセンスが大事」という趣旨の説明している専門書もしばしば見かけます。しかしこれは、一昔以上前の、データを取ることや分析することのコストが今よりはるかに高かった時代の考え方なのではないかというのが個人的な見解です。

 今日においてはすでに多くの企業において大量のデータが存在しています。そして、貴子も使っていたRという「少しプログラミングができれば誰でも無料で高度な分析手法を実行できるツール」が存在しています。Rとは、1992年にニュージーランドのオークランド大学で教鞭を取っていたイハカとジェントルマンによって開発されはじめたオープンソースの統計解析ツールです。世界中の統計学者やエンジニアがRで動くライブラリを開発・公開することにより、最新の統計手法や機械学習手法をわずか数行のプログラムを書くだけで実行できるようになりました。

コラム3画像2

 一般的なパソコンにRをインストールしさえすれば、たとえば何万人の、千項目もの説明変数を含むデータであったとしても恐れる必要はありません。その中から統計学的に重要そうな説明変数だけを選び出し、それら説明変数の組み合わせによってできるだけ小さな誤差でアウトカムを「説明」できる数式を明らかにする、といった作業もすぐに実行できてしまいます。

コラム3画像2

こちらはRを実行する際よく用いられるR studioというソフトになります。左上には「データをどう加工するか」「どういう分析を実行するか」というプログラムを書き、プログラムを実行すると左下の画面に実行結果が表示されます。右上には読み込んだり加工したデータのリストが表示され、クリックすると詳細情報を見ることもできます。また画面上の右下にはグラフの形で視覚的に確認したい分析結果を表示することもできます。

 このような状況では「センスある仮説を考えよう」と頭をひねっている間に、できるだけ大量の説明変数の候補を考えてデータを加工し、そうした説明変数の候補によって記述されうる膨大な仮説の中から何が大事なのかを、コンピューターと統計手法をうまく使って自動的に取捨選択したほうがおそらく効率的です。そうして得られた分析結果を見てから「これはどういうことを意味を示しているのだろうか?」と仮説を考えたほうが、人間の頭は有益に使うことができるはずです。

 そして分析結果から、自分がこれまでうまく言語化できなかった可能性に気づいて、「これは仕事に活かせるかも!」というアイディアをひらめいた瞬間こそが、貴子の言う「ドクンと数字に血が通う瞬間」なのでしょう。私たちデータ分析者は、そんな瞬間に立ち合うことに快感を覚えるからこそ、難しい論文を読んだり複雑なデータ処理をおこなう苦労をいとわないのかもしれません。

 なお、貴子がどのような手法を使って、この「統計学的に重要そうな説明変数だけを選び出し、それら説明変数の組み合わせによって、できるだけ小さな誤差でアウトカムを説明できる数式を明らかに」することができたのかは、次回のコラムで説明する予定です。お楽しみに!

ここから先は

0字

人気漫画家“うめ”さんによるベストセラー入門書のマンガ化作品・第3話です。18ページのマンガ本編に、原作者・西内啓さんの解説も後日追加され…