データサイエンスの市場価値は「意に沿うかどうか」で決まる問題

こんな記事を見つけた。

データサイエンティストになろうと思って「なれなかった」人の記事と読んだ。この人の事例は少々極端(紙のデータをデジタルに起こすなど、インターン先に恵まれなかったというのも要因っぽそう)だが、きっと今後2〜3年で、この人のような「ギャップ」を感じて苦しむ人は増えるんじゃないだろうか、と憶測で物を言っていく。

以前、こんなnoteを書いた。

いまだにこの問題は解けていない。
「データ分析で飯を食っていく」ということがどういうことなのか、よく分かっていない。
というかデータサイエンス系の職能の価値ってなんなんだろうか。
具体的には、データサイエンスのどこが「価値」として市場に認知されているのだろうか。
悩みをここに書いておく。

データ分析の価値って結局どこにあるんだ?

現状「データ分析」というのはプロセスと目的で仕事が分化している感覚を持っている。
以下は完全にきぬいとの偏見で、きぬいとが所属するいかなる組織の見解でもない。
違うなあとか思ったらただそう思ってほしい。違うなあというだけの話なので。

① 自動化・効率化のタスクに対しての分析基盤づくり

きぬいとの中では「システムエンジニアリング」の仕事であると考えている。データをどのようにに集めるのか、どのような構造で保持すればよいのか、どこに集めるのか、どうつなぐと使いやすいのか、など、分析をしやすい環境の構築にあたる部分だ、というのが理由だ。
データ分析に関連しないシステム(きぬいとはこのあたりをよく知らないが)との関連付けも含まれるので、分析手法や精度を出すための技術というよりは、「使いやすいデータを保持する」とか「軽い集計を出力する」とか「データを使えるものにする技術」的なスキルセットが求められるように思われる。
きぬいとにはスキルが足りないので、今のキャリアからは一番遠い仕事に思われる。

② 自動化・効率化のタスクに対してのモデリング

ここが現在の市場において最も「データサイエンス」らしく、そして誰もが憧れるデータサイエンティストのやっている仕事のイメージに近いと思う。
例えばWeb系の事業会社であれば「優良なユーザーに対して効率的に広告を打ちたい」という課題を、優良なユーザーを明確に定義した上で予測モデルを立て「優良ユーザーになりそうな人」を予測する、などだ。
kaggleのようなデータ分析コンペティションの問題設定にも近く、なによりその予測結果がシステムに統合され、良し悪しが評価される。
ここの評価は分かれるところではあろうが、何よりも次のアクションや、モデリングの更新が円滑に行われる点は、データサイエンティスト的でやりがいのあるところでもあるだろう。
もちろんこれだけではなく、基礎的な統計をダッシュボードで管理したり、新しい課題を見つけて別途モデルを立てたりなど、今「イケてる」データサイエンスの仕事の大半はここにある。だが後述するように、その市場規模は決して大きくはない。

③ 意思決定支援のタスクに対しての分析基盤づくり

意思決定の支援は、事業会社はもちろん、受託分析を行う会社に特に要請されるタスクだと思われる。多くの企業はデータを持っているがその活用方法を知らない。結果貯められるだけ貯められたデータが使われるのを待っている。
そこに飛び込んだ企業がDMPやCDPなどと言われる、データ分析基盤ツールを開発するベンダーと、それを代理で導入する企業だ。
現在誰もデータ活用方法を知らない市場では、このあたりの仕事が一番需要を持っていると思っている。「分析のしようがないデータ」を整理・統合することで「データ分析に先立つ基礎的な集計」ができるような環境を作り上げるフェーズが、データに関連する市場の一番大きな需要だろう。
それに答えるのがデータハブ系であったり、ダッシュボードツールであったりする。
これらを開発する側はもちろん①に含まれるが、では、売る・導入を支援する側はどこに入るのか?と思って③を作ることにした。需要はあるが、はたしてこの仕事に未来があるのか、という気はする。

④ 意思決定支援のタスクに対してのモデリング

前書いた記事でいう「占い師」の仕事である。きぬいとはここで仕事をしている。
正直なところ「データ分析を通して顧客の意思決定を支援する」という謳い文句はかっこいいだけで、実際のところ課題となる部分が山積している。
その上その課題について誰も議論しない。なぜなら顧客のご機嫌を損ねることが一番の損失だから。
このパターンでは顧客が持っているデータから問題を設定し、それを解決するモデルを立て、予測し、結果をもとに意思決定を促す。あるいは、顧客が持っているデータや調査会社の調査結果をもとにシナリオを説明するような統計モデルを立て、効果量やp-valueなどで評価することを通してストーリーをつくり、「エモい」意思決定ストーリーを促す。
前者はまだ②に近い。その結果がどうであったかの評価も可能である。
しかし実際に仕事として多いのは後者だ。これは往々にしてワンショットで、運用軌道に乗せようにも顧客のリテラシーが伴わないためうまく「活用」できない。フィードバックもなく、再現性も保証されない。
なによりデータ分析による結果が論理ではなくによって評価される。
分析結果が顧客の「意に反する」場合「意に沿う」ような結果をひねり出すことが要求される。
うまくいけば「魔法」のようにも見えるが、結論そんなものは博打である。
上記①〜③は何かしら問題を解決し、その解決法が良かったのかどうか、ある程度評価できる。だが④は、こればかりは誰もその結果がどうであったのかを把握できない。なぜなら「意に沿うかどうか」が全てであるから。
こんなものは占いで、数字遊びにすぎない。サイエンスとも呼べない。賢ぶりたい人間に対するご機嫌取り以上の価値はない。

結局

どのパターンも泥臭い作業は避けられない。これからデータサイエンスしたいワナビたちはその覚悟はしたほうがいいと思う。
ただ、ヘドロ臭い作業までしろとは言わない。ちゃんとデータサイエンスしたいのであれば、学ぶ環境はある程度整っている。学ぼう。
残念なことに、市場で一番シェアを持つのは④である。ツールベンダーは大体めぼしいところだけが生き残りつつあるし、事業会社のインナーでの開発も技術者の数に限りがある以上、大きな市場シェアを持つことは難しい。
大多数の企業はデータ分析・データ活用に関するリテラシーを外部に委託する。基盤を揃えることは金さえあれば実現するが、データ分析による意思決定支援はリテラシーの外部委託では限界がある。
結果を読める程度のリテラシーを内製しないといけないが、肌感覚的にそれを実現する企業はひとにぎりだ。どの意思決定者も「魔法」を夢見ている。
データ分析でわかることはたかが知れている。
データのとれないものは何も説明できないし、何も予測できない。
しかしこれを知らされるとなぜだか失望される。「データを使えば知らなかったこともわかるし、未来までわかるんじゃなかったのか!」
上等だ。KKDで生きていけ。
また何も分からなくなった。
データを論理的に使い、その結果を合理的に解釈し、人類を幸せにできる仕事がデータサイエンティストだと思っていたのに。ここはそういう世界じゃないんだな。

無料で記事は読めますが恩を回して欲しい人はここに奉納ください。