データとの付き合い方 ~データの世紀~
データの分析が導く「正解」は、どのような場面や分野で人間の判断よりも勝ると思いますか。
逆に「この場面・分野は、データ分析ではなく人間の判断が優先されるべきだ」というケースは、どういう場合でしょうか。
これを考えることは非常に重要だと思った。なので、自分の思うところを少し書いてみたいと思う。
「正解」とは何か?
本題に入る前に、言葉の定義を確認しておきたい。「正解」とは何か?
デジタル大辞泉によると、【正解】とは「正しく解答すること。正しく解釈すること。」らしい。
では、「正しい」とはどう意味か?
【正しい】とは「 道理にかなっている。事実に合っている。正確である。」とのことだ。
誰でも正解にたどり着けるようになる
正しい解答が存在する問題では、データの正確性は人間を上回るだろう。正しい解答が存在する問題とはつまり、評価指標の明確な問題だ。
たとえば、この人は肥満かそうでないかを判断するとき、人間が見た目でなんとなく判断するよりも、身長と体重というデータに基づいてBMIで判断する方が正確だろう。
ここで重要なのは、データに基づけば誰でもできること、評価者によって結果が左右されないことだ。
(詳細な話はリンク先の方がわかりやすいと思うのでぜひ読んでいただきたい)
日本酒「獺祭」を作っている旭酒造には杜氏がいない。「獺祭」は杜氏でもなんでもない普通の社員が、データに基づいて一挙手一投足を決めながら仕込んでいる。
麹室に置かれた蒸し米を広げる台につけられた温度センサは、0.1度刻みで蒸した米の温度を測れるようになっているという。その温度を担当の社員が読み上げていき、必要な作業ごとに定められた蒸し米の温度に達した瞬間に、その作業に全員が一斉に取り掛かる。
ここでは全ての一挙手一投足に至るまでが、細かく数値的に定められていて「完全に数値的に定められた通りに作業する」ことが作業者に求められている。
僕の記憶が間違ってなければ、コウジカビを振りかける動作ですら「何cmの高さから何秒に1回容器を何度まで傾けて振りかける」というレベルで完全にデータに基づいて厳格にマニュアル化されていたはずです。
このデータに基づいた厳格なマニュアル化の結果、新卒入社1年目の社員ですら獺祭の仕込みに参加できるようになっているという。データさえあれば、何十年もの経験を積んだ熟練の杜氏でなくても本格的な銘酒の仕込みができるのだ。
データ分析の神髄のひとつは「再現性」である。「データ分析によって現場のベテランがやっていることと同じことを、ベテランの知恵を借りずとも再現できる」ということに着目した結果が獺祭の成功である、と言って良いでしょう。
データさえあれば、新卒社員でもベテランが作るような酒が作れる。これは、人間の判断に勝るデータが導く「正解」を信じた例ではないだろうか。
同ブログは続けて、次のような旭酒造の社長の言葉を紹介している。
『100人いたら90人は「データでわかること」を基に、1+1=2と素直に理解して実践してくれればいいのです。そのうえで残り10人ほどのリーダーになる人が、「数字ではわからないことがある」ということをきちんと理解して指導や判断をしないといけない。』
当たり前ですが、データ分析は万能ではありません。仮に統計学や機械学習を駆使した高度なモデルを使いこなしていたとしても、それは「データで分かること」に対してアプローチできるに過ぎません。データでは分からないことや、そもそもデータが取れないことについては、依然としてその限界を認識した上で人間が考えて決めなければいけないわけです。
データ分析では決められないことを決めるために、人間がいる。
データで決められることと決められないことの線をどのように引くのかが、今回の「データ分析ではなく人間の判断が優先されるべきだというケースは、どういう場合か」ということの答えを探る手がかりかもしれない。
常識に縛られない選択
『マネー・ボール』は、マイケル・ルイスによるアメリカ合衆国のノンフィクション書籍だ。日本語版の副題は「奇跡のチームをつくった男」。2011年に映画化もされている。
これは、メジャーリーグベースボール(MLB)の球団・オークランド・アスレチックスのビリー・ビーンゼネラルマネージャー(GM)が、セイバーメトリクスと呼ばれる統計学的手法を用いて、プレーオフ常連の強豪チームを作り上げていく様子を描いたものだ。
資金力の差によってスター選手の獲得が困難な中、ビーンはデータに基づくことで強豪チームを作り上げていった。
ビーンは出塁率や長打率など様々な要素を分析し、チームの編成、選手の獲得を行った。ビーンが「勝利するために重要視すべき」とした諸要素は従来の価値観では重要とされないものばかりであり、その観点については選手の年俸にほとんど反映されていなかったため、金銭的コストを低くしながらも有用な選手を増やし勝利を獲得していった。
この問題も、数値的データに基づけば誰でもでき、評価者によって結果が左右されない、データが人間を上回る例と言えると思う。
もう一つデータを利用した例に触れておきたい。
Netflixは、蓄積していたビッグデータを用いて契約者の視聴パターンなどを細かく把握し、新しいオリジナルドラマを制作しようとした。
ビッグデータを活用して適任の監督・俳優を割り出し、潜在的視聴者の人数も割り出すという。
1回目に制作された『ハウス・オブ・カード』第1シーズンの配信から1年以内に契約者数は3割以上増え、その後も勢いは止まらなかった。ネットフリックスは成功を追い風に、ビッグデータ主導のオリジナルコンテンツ制作を加速させていった。
Netflixは制作現場の在り方を一変させた。ベテランプロデューサーの直感や過去の常識に縛られず、ビッグデータを信じて監督や俳優を選ぶことを基本にした。
ここでもデータが導く答えは大きな成果をあげた。人間の判断よりも、データが導く正解を信じた結果である。
しかしこれら二つの例を見て思う。データが本当に正解なのか、データが導いた正解が信ずるに値するのかしないのかは、結果を見るまでわからない。
データが導く答えが正解かどうかは結果論だからデータの導く正解は信ずるに値しない、と言いたいわけではない。
このようなケースでデータが導く答えというのは、これまで蓄積されてきた膨大なデータの中から法則を見出し傾向を見つけることで得られる、もっとも確率の高い確からしい答え、だ。個人の経験則による曖昧な選択ではないデータに基づく意思決定は、常識に縛られない選択肢を私たちに提示することを可能にした。
データに基づく意思決定がもたらすのは、明確な数値や分析結果によって根拠のある選択ができるようになることだ。個人の経験則に頼らず、誰もが再現可能な根拠のある解答を導けるということだ。ただし絶対はない。
データが99%の確率で正解の答えを出したとして、結果が残りの1%にならない保証はどこにもないのだ。
データを信じるかどうかは、個人の判断に委ねられると思う。しかし、膨大なデータをもとに導かれた答えは、概して人より正解に近いことが多いかもしれない。
正解のない問題
今後さらに、多くのデータとそれらが導く答えは、私たちの意思決定を支援していくだろう。それによってより良い結果を導けるようになることは、これからどんどん増えていくに違いない。しかし、データはあくまでデータであり、最後に選択をするのは自分である。
正しい解答が存在しない問題では、未だ人の判断が必要になる場面が多くなるだろう。
トロッコ問題で5人と1人どちらを助けるかを考えるとき、AIに「データに基づいた結果はこちらです」と言われて「はいそうですか」とはならないと思う。
【正しい】には「 道理にかなっている。事実に合っている。正確である。」の他にも意味があるらしい。「道徳・法律・作法などにかなっている。規範や規準に対して乱れたところがない。」だ。
道徳・法律・作法などには、多種多様な価値観が伴う。明確な評価指標は必ずしも存在しない。データを信じるかどうか、そして最後に何を選ぶかは、きっと自分の意思で選ばなくてはならない。
何を選べば、失敗した時も胸を張っていられるか?
データとどのように付き合っていくか?
データの世紀を生きていくために考えていく必要があると思う。