見出し画像

【統計学】データサイエンティストについて思うこと ~嘘、大嘘、そして統計~

 ビッグデータの利活用の機運が高まったことにより、データサイエンティストと呼ばれる人たちが2010年代以降急増した。
 彼らの役割は、ビジネス上の課題等を定量的な問題に落とし込み、様々なデータを手掛かりにその問題の解を求めることにある。

 データ分析といっても、分野によってかなり要求レベルの差がある。単純に箱ひげ図を作るだけで済むようなものもあれば、時系列解析のような高尚な数学が必要なものまである。
 それでいうと、筆者は時系列解析を扱うことが多く、自身でモデル開発をすることもあれば、外部ベンダーのデータサイエンティストに外部委託するような案件も抱えている。
 問題は、この外部ベンダーのデータサイエンティストの質の低さである。とある時系列データの予測モデルの開発を委託しているのだが、データの非定常性を無視した回帰をしたり、相関係数の数学的解釈が分からないと言い始めたりと、無茶苦茶な報告をしてきたのである。結局、どんなに指摘をしても、彼らはARモデルやARMAモデルといった教科書の最初の方に書いてあるようなモデルに何の仮説もなく片っ端から突っ込んでいくことしかできなかった。その外部ベンダーは東大で機械学習を専攻していた修士やら博士やらを中心に採用しているようだが、こんなにレベルが低いのかと驚愕してしまった。
 呆れてその外部ベンダーに厳しいコメントをしたのだが、彼らは開き直ったように、「データサイエンスというのは数学的に正しいことが重要なのではなく、発見的に色々な手法を片っ端から試して、フィッティングしそうなモデルができればそれでよいのだ」と言うのである。

 ただ、時系列解析において、非定常なデータの特性を無視してモデリングをしてしまうと、ミスリードな結果を生み出してしまう可能性があることは理論的に明らかだ。もちろん実務上、数学的に完ぺきなものを作ることが容易でないことは理解しているが、そういった初歩的かつ重要な論点もサーベイせずに、最初から最後まで全てヒューリスティックにやろうとするのだから、言葉を失ってしまう。

 ここで気づいてしまったのは、データサイエンティストを語っている者の中には、確率論や統計学といったベースとなる数学を全然理解していないような人がゴロゴロいるということだ。
 データサイエンスというのは本来、全知全能ではない人間の意思決定を、定量的な観点から手助けすることがミッションなはずである。理論的保証が全く無い分析結果など、星座占いと同じであり、意思決定を容易に誤った方向へと導いてしまう。有名な言葉で「嘘、大嘘、そして統計」という言葉があるが、まさにこのことである。

 結局のところ、研究ができない者がデータサイエンティストをやっても、ロクな結果を生み出さない。しかし、残念ながら巷のほとんどのデータサイエンティストは基礎を全然わかっていないような者たちなのである。
 個人的には、数学の研究ができるレベルの者でなければ、信頼できるデータサイエンティストにはなりえないと考えている。金融業界に限定して言えば、確率論の専門教育を受けているデリバクオンツがデータサイエンスをやった方がよっぽどましである。
 これからデータサイエンティストの登用を考えている方は、十分気を付けていただければと思う。

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?