見出し画像

RE:データ分析官のキャリアなんもわからん問題

今年も書いていこうと思う。

ゴールデンウィーク暇だしポエム書くか

そうして生み出された文章であるが、書き始めたのは4月半ば。
なんだ、書く気マンマンかよw
でも公開するのはGW明けて1週間。悪いな。筆が乗らなかったんだ。

誰?

・ 同じ会社で3年働いてしまったデータアナリスト
・ 1年目で転職活動して給与交渉した(2018年)
・ 2年目で大失敗してスーツで取引先に謝罪した(2019年)
・ 3年目で勝手にリモートワーク始めて怒られた(2020年)
・ データ分析よりもデータの基盤と教育で成果を挙げている(2021年)

「データサイエンス」はこの1年何が変わったか

毎年TJOさんが更新しているので、大体必要なスキルセットの変化はこちらを参照するとある程度時代の趨勢は読めると思われる。

大きな変化に「データサイエンティスト」「機械学習エンジニア」「データアーキテクト」と職能が分かれ、それぞれTJO式の定義が記載されている。

データサイエンティストは「データアナリスト」の延長
機械学習エンジニアは「ソフトウェアエンジニア」の延長
データアーキテクトは「DBエンジニア」の延長

と「延長」という言葉を用いて端的な定義を与えている。
個人的には「延長」というより「適応」なのだと考えているが。
分析者がデータに適応した果てがデータサイエンティスト、
ソフトウェアエンジニアが様々なデータに適応した結果が機械学習エンジニア、
DBエンジニアが機械学習や統計モデルに適応した結果がデータアーキテクト、というような。
いずれにせよ「データサイエンス」とこれまでひとくくりにされてきた領域は、適用されるドメインや用いられるライブラリ、アーキテクチャによって少しずつ境界線が敷かれてきた、というのが2020年らしい。
この記事はあくまで「データ分析者のキャリアなんもわからん問題」なので、ここまでくると機械学習エンジニアにも、データアーキテクトにも当てはまらない内容は多く含まれるだろうし、「当てはまらんなあ」って思ったらそれでいいと思う。

受託分析3年目を振り返る

振り返るほどでもないが、結局のところ顧客のデータ分析に関するリテラシーは着実に向上しているように感じている。
加えて、いわゆる老舗企業や、大手企業と向き合っていても、若手や優秀なデータ分析担当者と向き合う場面が増えて、より「数字に基づいてビジネスの意思決定をする」ような場面が増えていると感じている。
背景にはいろいろあろうが、少なくとも彼らにはデータを視る目があり、分析の前提に敏感で、本質的な質問を投げかけてくれる。
この「データを視る目」が現職の現場担当より鋭くなっていると感じる日も増えた。客の質が上がった、といえば聞こえはいいし、実際そのとおりである。
こうして浮き彫りとなったのは「社内リテラシーが向上していないこと」であった。

他社に知識で負けている

この1年、客から飛んできた質問や確認を、フロントで対応しきれなくなるような場面が圧倒的に増えた。
たとえば「以前依頼した重回帰分析について、回帰係数は標準化されているか」とか「ベイズモデリングのパラメータの収束度合いについての結果が欲しい」とか、半分フィクションにしているが、このレベルの相談が増えてきた。現職の現場ではこのレベルの相談に応対することはできないため、結局は私の部署に相談が飛んでくる。
仕事である以上、こういう対応をすることに嫌な顔はするつもりはないのだが、仕事だからこそ「ああ、こういうのにすぐに応えられないことで期待値が下がるのだな」と強く感じられる場面が多くなった。
最近始めた社内の取り組みは、社内のデータリテラシーを上げるための施策と、室の高いデータを得るための上流工程への介入である。
少々雑な設計ではあるが、実施してみるとそもそも「社内リテラシーが向上していない」ということ、強い言葉を使えば「自分たちが時代から取り残されている」ということに焦りがない、あるいは無関心である社員が圧倒的に多い。
ここは現職の根本的な問題で「データ分析官」というジョブに根ざした問題ではないのかもしれないが、「会社が我々をどう使うべきなのかを理解していない」という事実は、私にとっては「会社に居場所がない」事に等しいため、結構メンタルに来る。
メンタルは一度やっちまっているんだが。

他社に技術で負けている

現職はITの会社ではない。IT企業にソフトウェアエンジニアリングで勝てないのは当たり前である。
それでも、この1年、力のある企業は上記のデータサイエンススキル、
データサイエンス・機械学習エンジニアリング・データアーキテクチャの人的資源と計算資源を確保し、社内運用を進めている。
例えばAWS EC2インスタンスを立ててそこにssh接続し、JupyterだのRstudio Serverだのを入れてWebアプリで接続できるようにするなど当たり前体操だったりするわけである。
現職ではこれをまともにできるのが僕だけだったりする。
その癖比較的規模の大きなクラウドベースで動くソリューションを社長が「これやろう」とか言い出して持ってきていて、様々な追加開発が入って爆発的に工数がかかって2020年内に可動するはずのものが、まだ、可動していない。システム開発あるあるすぎて笑うに笑えない。
事業会社でもなければ、実務に耐えうる要件の機械学習モデルは、それぞれのクラウドのパッケージを活用すればある程度ツールを組み合わせるだけでなんか動くというところまで来ている。
つまり、私が頑張ってプログラムを組まなくても「機械学習モデル」はできてしまうとすれば、事業会社から「データを分析して欲しい」というオーダーは限りなく少なくなるだろう。3年前から視えていた未来なんだけど。

因果推論と意思決定による生存戦略

一方で、近年データ分析者周りで注目を浴びているように感じるのは「統計的因果」と「意思決定」である。
A/Bテストに代表されるように、ある程度基本的な「統計的因果」の検証手法はシステム化されている。
一方、ある程度複雑な設計での因果推論・因果探索は、自動化の難しい領域である、というところは、去年書いた話とそう変わらないように思われる。
ただ、こういった「A/Bテスト」レベル以上の因果推論が必要とされるかどうかは、人の意思決定能力に大きく依存する。
つまり「統計的な因果関係」ではなく「統計的な相関関係」から、ビジネスドメインをもとに因果構造を論理的に推論したとしても、その推論をもって「妥当な意思決定」ができるのであれば、必ずしも「統計的因果」にこだわる必要はないのではないか、ということにもなる。
が、個人的には、データ分析者としてキャリアを積むには、人の意思決定について深く体系的に理解した上で「統計的因果」に基づいて意思決定支援を推進する必要があるように思われている。そういう書籍も増えているので、
世間における需要も少なくないのだろう。

機械学習にしろ統計モデルにしろ、その出力結果をもって意思決定を行うのは未だ人間だと思う。意思決定が自動化される未来は、そう遠くはないとも思うが……
その割に、自覚的にデータ分析による意思決定支援までしっかり行う受託会社は多くない(出した結果の妥当性に責任を持つということは相応にリスクだからだと思う)。
多くないだけで、やっているところはやっていると思うし、
そういう企業の価値創造・付加価値化は、向こう2〜3年注目されると思っている。
要は「データ分析して結果提供して終わり」という時代が終わり「この結果でどういう意思決定をしたらよいのか」「その決定がどの程度妥当である(だった)のか」まで、受託企業側が責任を持つ時代になった、と感じている。

データ分析官の価値とはなにか

技術的な方法論については、統計的因果と意思決定理論について関心を寄せているが、ビジネスにおけるデータ分析官の立ち位置について、ここ1ヶ月は「価値」という概念を軸に、哲学的な側面で掘り下げている。

これの根本は「で、僕の仕事の価値ってどの程度なん?」という話に尽きる。これまでずっと考えてきた問題である。
目まぐるしく変化する市場と、常に自分の持っていない知識(≠最新の知識)を獲得し続けなければ生き残れない市場で、自分の能力を手っ取り早く役立たせるためには何をしたらいいのだろう。
ただ、本当に「なんもわからん」だった3年前に比べると、とりあえず「やらなければならないこと」として、自分がまだ知らない知識や技術を「インプットする」だけではなく、その活用を通して「価値を生み出し、社内外問わず成果を提供する」ことで初めて、自分の仕事に価値があると言えると思えるようになった。
この「価値」の話は、機械学習に限らない。自身が身を置くドメインについての研究や経験をどうやって価値に昇華するか、そのための環境は整っているか、整っていない場合、価値を出しやすい環境にするにはどうしたらいいのか、その環境は自分以外の人間も価値を出しやすい環境だろうか。
結局「仕事を自己実現の手段にしよう」と思うと、こういうスパイラルに陥ってしまうのかもしれない。これで疲れるくらいなら、別のドメインで自己実現欲求を満たすほうが、気持ちが楽なのかもしれない。
仕事を生活維持の手段にしてしまうと、8時間が退屈なままになってしまう。
まだ、自己実現は諦めたくない。
でもどっかで諦めないといけないんだろうな、データ分析で生み出せる価値とそれを生み出し続けられる人間のキャリアは、未だになんもわからんままである。

無料で記事は読めますが恩を回して欲しい人はここに奉納ください。