見出し画像

データ = 数値 + 背景情報。AIが身近になってきた今だからこそ、文脈を踏まえた分析結果を提供したい

はじめに

はじめまして、DXソリューション事業部でデータサイエンティスト(DS) として働いている中橋と申します。

いきなりですが、みなさまには人生を通して成し遂げたい、あるいは貢献したいと思っていることはありますでしょうか。

私は、日本の統計リテラシーを向上させたいという思いがあります。

この note では私がそのような思いを持つように至った背景やそのために何をしているかを簡単にご紹介することでJDSC (の特に DS 職)にもっと興味を持ってもらいたいと思っています。

なおこれより下のコメントは全く私個人の思い・理解を述べたものであり正確でない記述があるかもしれませんがご容赦ください。

略歴

帯広畜産大学にて博士後期課程修了後、データ分析の受託サービスを請け負うベンチャーに入社。時系列解析を中心に予測モデルを用いた業務改善のイロハを学ぶ。その後コンサルティングファームなどで多数のデータ分析PJに参画。「分析して終わり」ではなく業務に生かすための開発まで手掛けられること、そして何よりも日本社会全体をUPGRADEするというミッションに共感し、2022年7月より現職。

統計学との出会い

そもそも私が統計学に出会い、興味を持ち出したきっかけは大学での研究でした。当時私が所属していた研究室では家畜の遺伝的改良を考える研究をしていたのですが、この"遺伝的能力"というのは見た目からは推し量ることが難しいものです。

というのも家畜の体格や気質、乳量や肉量などといった性質(形質といいます)は遺伝的影響とともに環境的な影響を受けるためです。
例えば乳量を例にあげて考えると、牛乳というのは乳腺で血液から作られますが、食べた餌の量や質、季節(暑いと乳量が減ります)、出産からの経過日数(泌乳曲線と呼ばれるカーブを描きます)、産次(何頭の子牛を産んだか)などの環境的要因が影響します(*1, *2)。

*1 http://liaj.lin.gr.jp/uploads/LIAJNEWS160_09.pdf
*2 https://www.jstage.jst.go.jp/article/chikusan/86/1/86_13/_pdf

このため個体の遺伝的能力を評価するためにはこれら環境要因について補正してあげる必要があるのですが、そこで使われるのが統計学です。

統計学、具体的には混合モデルと呼ばれる手法を用いた下記の式を計算することで乳量に対する影響を遺伝に由来する部分と環境に由来する部分に分けて評価することが可能となり、遺伝的に高い能力を持つ個体を選抜することで次世代の牛たちはさらに高い乳量を期待できる、というわけです。

このように統計学は"見えないものを推し量る"ことができる素晴らしいツールです。

もちろんこういった分析が可能となるのは対象とするデータや現象に対して様々な仮定を置いているためであり、また捉えたい現象の性質や手法によって明らかにできる限界はありますが、それでも従来であれば熟練した経験者による勘や経験によってのみ評価されてきたものがデータと知識に基づいて定量化された情報によって判断が可能となったことは、統計学というツールがまさに時代を動かす大きな変化をもたらしたといっても過言ではないでしょう。

神の与えしものから人間の手へ

このような素晴らしいツールである統計学は、歴史的には多くの偉大な数学者・科学者によって発展を遂げてきましたが、なかでもやはり白眉(はくび)は R.A.Fisher でしょう。

Fisher は現代の推測統計学を基礎づけた統計学における巨人の一人ですが、Fisher の業績の1つに実験計画法の考案があります。

実験計画法をかいつまんで説明すると、数多くの要因が影響する現象においてそれら要因を無作為かつ反復的に配置することで、要因による影響と確率的な影響(誤差)を切り分ける手法です(*3)。

「作物の栽培においてどの肥料をどの程度与えれば良いか?」という現代に生きる我々からすれば戸惑いさえ感じる単純な問いに答えを出せるようになったのは、この実験計画によって要因による影響を評価することが可能となったからなのです。

*3 より正確には反復・無作為化・局所管理という Fisher の三原則にしたがった配置

ところで我々は素朴に「データ」という言い方をしますが、この「データ」は実は複数形であることをご存知でしょうか?
data の単数系は datum ですが、この datum はラテン語で「与える」という意味があります。

かつてデータというものは人間が狙って得られるものではなく、自然現象などを通してたまたま手に入るもの、いわば"神から与えられたもの"でした。
ところが Fisher の実験計画は狙ったデータを自在に手にする方法を人間に与えたのです。これだけでも Fisher の凄さが伝わりますね。

科学の文法たる統計学、科学を阻害する統計学

さてそのような統計学は Fisher が注力した農学や遺伝学に留まることなくあまねく自然科学に広がりを見せ、今や統計学というのは科学全般において特権的な地位にあると言っていいでしょう。

様々な学問領域において実験や観察が行われますが、得られた分析結果が「滅多に起こらないことであるか」を評価する際には、必ずと言って良いほど統計的な処理が求められます。

「統計学は科学の文法である」とさえ言われることもありますが(*4)、統計は自然科学を横断しながら学問固有の知識を有意味なものであるか判定するためのツールとして権威付けられています。

*4 この言葉は統計学の巨人の一人である K.Pearson の著書である "Grammer of Science" から来ているとされますが、実際には Pearson は統計を指して科学の文法と言っているわけではないようです

しかしその一方で、統計学が主張や実験結果を正当化するために誤った使われ方をされるようになってしまっているのも事実でしょう。

例えば統計と言えばp値を連想する方も多いと思いますが、本来であればサンプルサイズや効果量などを事前に設定した上で事後的に評価されるべきものであるp値が、一定の基準(多くは0.05)を下回りさえすれば良いとの誤用が続けられた結果、アメリカ統計学会が声明を出す事態にまで至っています(*5)。

大袈裟に言えば、統計学というツールが科学の発展を阻害する一要因になってしまっているのです。

*5 https://www.biometrics.gr.jp/news/all/ASA.pdf

統計学やその応用領域である統計的機械学習が「データに基づいて客観的な判断ができるもの」であるとの誤解も見逃せません。

実は統計・機械学習を用いた予測モデルというものは、変数の選択・加工、欠測の補完、目的関数の設計、最適化の手法の選択など至るところに分析者の経験や思い、そのドメイン特有の要件による何らかの"バイアス"が紛れ込むものです。

そして何よりも収集したデータそのものに潜むバイアスに関心を持たずして、これらのバイアスを排除したり統制したりすることは叶いません。

つまり、統計学やモデリングというものは真の意味で客観的なものではなく、むしろ自分が置いている主観的な仮定、データ・モデルに含まれるバイアスを自覚しつつ使われることを前提としたものなのです。

にも関わらず、不適切な方法で統計が用いられれば満足のいく結果を得ることは難しいでしょう。そしてそれは統計学そのものの価値が疑われるという評価に繋がりかねません。
統計を愛する一員として看過できない事態です。

仲間募集!

私は統計学がもっと世の中に普及することを願っています。
そのためにも統計というツールとの適切な向き合い方を世に敷衍(ふえん)することが自身のミッションであると考えています。それを通じて日本社会をより良くする、すなわち当社のミッションでもある「 UPGRADE JAPAN」 を実現したいと思っています。

いま私は JDSC でフレイル検知のPJに携わっています。
フレイル・介護は少子高齢化が進む日本社会において喫緊の課題であり、大きく言えばここでの取組みが日本全体の先行きに影響します。フレイルを早期に検知し、要介護状態となる前に適切に介入することができれば、将来に渡っての介護費用を抑制するのみならず高齢者のWell-beingを保つことができるでしょう。

そのためには精度の高い検知モデルや効果のある施策を促す介入デザインが必要です。予測モデルの開発、モデルによる判断根拠の提示、介入による効果の検証、施策全体の費用対効果の算出など至るところで統計学が求められています。

こうした大きな社会課題に対し、統計・機械学習という自分が価値を提供できる分野で解決を目指すというのは大変心の湧くものではないでしょうか。
この記事を少しでも面白いと思ったそこのあなた、私と一緒に統計で日本を UPGRADEしませんか?


この記事が気に入ったらサポートをしてみませんか?