データサイエンスが「食」に通じる点

新しい研究室の施工が完了しました。費用がかかる設備や什器を避けて、築90年を超える建物を活かしつつ、コストを抑えて改装を行いました。緊急事態宣言下では、キャンパスの立ち入りが制限されているため、活動が許されているコロナ分析チームが部屋を利用しています。今回は分析についての話です。

ビッグデータを使っているのに何故こんなに分析がシンプルなのか?という質問を頂くことがあります。例えば、コロナ分析チームでは数理統計やプログラミングの様々な分野のエキスパートが連携して日々検討を行っています。
公表データの裏では機械学習や空間統計を駆使して、膨大なデータの中に潜む様々な問題や課題に対してアプローチを行っています。一方で、最終的に提示する結果については今回の全国調査については、できる限りシンプルに伝えることを1つの目標にしています。

こうしたデータサイエンスのアプローチは「食」に通じる部分があります。「食を通じたどのような体験を提供するのか?」という問いから考えた場合には、コロナの分析においては、より多くの人達が理解納得できるように、かつ迅速に提供する必要がありました。

SNSの中で老若男女を幅広くカバーしているとはいえ、LINEユーザーは一般集団と比較すると若年層に偏っています。こうした偏りが回答傾向にどの程度差を及ぼしているのか、年齢や職業や地域別に傾向や割合を比較して、統計に歪みがどの程度生じているのかを検証します。空間統計を用いた検証、ベイズ推定を用いた確立の補正、重回帰モデルを用いた標準化など、さまざまな方法で検証した上で、どのような提示の仕方を行えば現実に対して最も誠実に結果をお示しできるかを検証するのです。

これは和食でお造りを提供する時の工夫に少し似ているかもしれません。生で提供する上では鮮度が非常に重要になります。その中でもどの部位を使い、どの部位を使わないのか? 旨みを出すために少し置くのか、捌いた瞬間提供するのか? 素材を活かす上で、どのような厚みで切り、どう隠し包丁を入れるか?、温度管理は、炙るのか、薬味と合わせるのか? それでも焼き魚や煮魚、他の食材と合わせた調理が美味しければそちらの方が良いのではないか?、、、等ということを検討した上で、最も美味しい方法を選びます。

またチームのもう一つの特徴は、現実を誠実に反映する上では、ありもののデータだけを使うのではなく、時にデータ収集から関与するということです。これは食でいえば、食材の調達ルート、時に農場の経営から行うことを意味します。

今回のLINE調査でいえば、既に確立しているプラットフォームを活用させて頂きながら、データ収集のルートを確保しました。8300万人とのネットワークは非常に強力ですが、逆に確立されたLINEのブランド・信頼を損なうことはできません。またユーザーの回答時間も、通常の調査よりも大幅に短縮する必要がある。こうした中で、データを収集する必要がありました。
世の多くの人々は分析工程のみを、データサイエンティストの花形として考える傾向があります。たしかにどんなデータがきても、様々な解析手法を駆使して結果を提供するデータサイエンティストもいれば、得意な分析方法があってその手法を軸に新しい価値を生むデータサイエンティストもいます。

前者は伝統的中華料理に近いですね。食品の加工と加熱調理を駆使して、品質を安定させる。食文化が決して豊かな場所でなくとも一定の基準で安定するのはそうした特徴に依るものです。肉料理の調理に革新をもたらした超低温ローストを扱う料理人達は、食文化におけるdeep learning使いといえるかも知れません(少し言い過ぎですね)。

ただデータを用いて現実を改善するという観点から考えると、分析はその一部です。データ収集の行程から設計し、単なる分析だけでなく、その解釈が人々にどの様な影響をもたらすのか?という点も含めて責任を持つのが、データサイエンスであるといえます。すこし強引な例えですが「食を通じたどのような体験を提供するのか?」という問いから、料理を考えることに通じるものがあります。


この記事が気に入ったらサポートをしてみませんか?