データ分析者のキャリアなんもわからん問題 Again

上の記事から1年が経つし今考えていること書いていこうと思う。

ゴールデンウィークも終わったしポエムを書いても誰も気にしない

というか気にするな。

誰?

詳しくは上のやつを読んでね
・ 現職は未だにJapanese Traditional Company
 → 勝手に在宅勤務始めたら「不公平」と怒られた
   (謎)(勝手にやるのはよくない)
・ Slackは未だに導入できないので、Teamsを導入し布教した。
 → 在宅勤務時のコミュニケーション効率化に大きく寄与した(気でいる)
・ お客さんがデータサイエンスに詳しくなった。
 → 内製できるようになったので案件失注しました問題!?
・ オペレーターからマネージャーにジョブシフトしそう
 → マネジメントをやってから転職?
 → それとも手を動かすのに専念するために転職?
・ AWS EC2のまっさらな状態からデータ分析環境を構築することに失敗
 → インフラとかアーキテクチャなんもわからん自分は無価値なのでは?
・ 結局データ分析の価値ってなんなんだ?なんもわからん

この1年、データ受託分析界隈にどんな変化があったか

結局のところ、上の記事と大きな潮流は変わっていないように思われる。
つまり、データサイエンスのシステム実装、データ可視化ツール・システムの開発・販売、データ受託分析。
界隈は3つのカテゴリで主に市場が成り立っている、と未だに考えている。
ポエム主はデータ受託分析のカテゴリに含まれているが、この中では比較的大きな変化があるように思われる。
事業会社やデータ可視化ツール系の潮流の変化については、この際そこで働くどなたかが書いてくれると信じて、ここでは書かない。
話を聞く限りだとそこまで大きな変化はない(開発内容の高度化・競争の激化などはありそうだが)と認識している。

依頼主のリテラシーが高くなった

現職のような小さな受託企業でも、依頼主が高度な分析結果を理解してくれるようになったり、それこそ高度な分析を的確な場面で依頼してくるようになった。また、今まで受託していたタスクを依頼主側で内製できるようになって、失注した場面も経験した。
ポエム主はなんとなくこの1〜2年でそういうことになると思っていたところもあり、学術論文やデータ分析コンペなどを眺めながら、実務でできる範囲でちょっと高度な分析を仕込んだりして1年を過ごした。
結果、高度な案件がメインで降ってくるようになった。
デカいやらかしも何度か経験したが、そこはそれ。
ポエム主以外タスクをこなせない場面も増えたが、そこもそれ。
kaggleの成績も振るわないが、そこもそれ。

データ分析という「仕事」と、人間に求められる力

ここまである程度意図的に「データサイエンティスト」という役職名を避けている。名乗ったもの勝ちの肩書に魅力を感じないからだ。
その肩書に中身をつけようとした結果も知っている。だが結局の所これも自己申告要素が強く、できることの実証が難しい以上「この要件を満たしている俺はデータサイエンティスト」という権威でしかない。
結局「データサイエンティストは何ができる人間を指すのか」という部分に明確な同意がなく、それを定量的に評価する場も乏しいので、ポエム主は基本的に「データサイエンティスト」を名乗るのを避けている。。
ポエム主は「データ分析を仕事にしたり趣味にしたりしている人」以上に肩書はない。肩書がなくても評価される人間のほうが、個人的には偉大だと思っている。

話がそれた。本題に移る。
データ分析という仕事は、結局なんなのだろうか。
というか、どんな能力をこれから培っていけば、
データ分析という仕事でしばらく食べていけるのだろうか。

日本で「データサイエンティスト」といえば真っ先に名前が出てきそうランキングトップ5に入るであろうTJOさんは今年もスキル要件を提示している。
毎年求められるスキルは上がっているように思われる。
とは言いつつ、技術的な素養よりもビジネス活用への要件がちょっと増えている、気がする。。
仮にこの直感が妥当だとするならば、その理由は単純に
「広く知られている分析手法はツールのボタン1つで実行できること」
「先進的な手法もAPIが整備され、簡単に実行できること」
にあるんだろうなあと思う。
要は、分析のために必要な手数が減っている。
もちろん、関数はAPIで呼び出せばいいが、そこに突っ込むデータや、出力結果の整理については、別途プログラムを組む必要がある。完全にコードを書かずにできる、という場面は、まだ多くないだろう、とは思っている。
いずれにせよ、分析に必要なコード量が減ったということは言える気がしている。

因果推論は自動化できない?

統計的因果推論は、自動化に至るには様々な課題がある。
Web広告のコンバージョン等を比較するA/Bテストは自動化を行いやすいフレームワークだが、例えば人の購買行動など、交絡する要因が多様な場合、A/Bテストのようなフレームワークに基づく統計的因果推論は自動化が困難な場面もある。

統計的因果推論は、ビジネス上の課題と相性はいい。
例えば「商品Aに関するキャンペーン施策を実施した。商品Aの販売戦略のために、売上への寄与を知りたい」というようなビジネス課題は典型的である。
理想的な因果推論を行うことができれば「キャンペーン施策の効果はこれこれである」というレベルで評価できる。
実情、これについては交絡を無視して、単純な前後比較で評価する場面も多い。この前後比較の結果はキャンペーンの効果を過大に評価しうる。
あるいはアンケートとして「このキャンペーンを知って商品Aをほしいと思ったかどうか」のスコアの比較を行う、という評価もあろう。
個人的にはこういう評価で意思決定を行うことはだいぶ怖いのだが、上記による「妥当でない」比較による結果は、人々にとっては都合がいい場合が多い。過大に予測されるのだから「キャンペーンやった甲斐があった!」というわけである。
因果効果を推定する手法は存在するが、RCT(ランダム化比較実験)によるデータ収集が前提となる場合が多い。
個人的には、これはプログラミングでどうにかできる問題ではなく「ビジネス課題の解決デザイン」として、知識を持つ人によって構築される必要があると考えている。
これができるデータ分析者はいろんな企業にモテると思う。今の所人間にしかできないので。

データ分析者の価値と自分のキャリア

「依頼主のデータ分析リテラシーが向上した」
「分析するために必要なコードの量が減った」
「完全に自動化・機械化できないタスクはまだ存在する」
という話をした。完全に主観で偏見の伴った話だったが。
こうした変化に、私はどう対応すれば良いのだろう。
以前、こんな記事を書いた。

この記事では「データそのものや解析結果、意思決定の主体の思考に存在するバイアスに注意しながら、意思決定を支援することが、データ分析の価値なんじゃないか」という思考を垂れ流している。
今もまあそんなに間違った結論ではない、とは思う。私の中では。
更にいうと、最近マネジメント領域に片足を突っ込む場面が増えた。
より広く「意思決定支援」というタスクを考えたとき、自分のスキルポイントをどのように割り振るのが良いのだろうか。これが今年の「なんもわからん」である。
去年よりはだいぶ身の振り方が固まっている。肩書として、例えば「機械学習エンジニア」としての道は7割方一旦見ないことにしている。マーケター、あるいはコンサルタント、という役職が近かろう。これらの役職に対して、感情的な嫌悪はあるのだが。
要は「特定の領域のデータと課題に対して、解決可能な問題に上手に落とし込み、それを解決するベースラインとなるモデルが作れる」というところを狙う道「しかない」ように、今は見えている。
ベースラインを作ったら「より良いモデル」は作れる人に頼るということを、ようやく覚えたというのもあるかもしれない。
機械学習分野のエンジニアとしてやっていく場合、競争相手のレベルが非常に高い。
高いレベルのエンジニアが日本国内に多くいることは、集団レベルで見れば非常に良いことであるが、私個人がそのエンジニアとしてやっていけるのか、と言われると、非常に難しい。だってAWSの環境構築できないし。
一方で、データの持つバイアスや人の行動・反応に関するデータの分析、パラメトリックな手法の推定方法や推定値の性質、誤差の話などには今も関心を向け続けることが今のところはできている。
ただ、問題は私がその領域で、果たして「価値のある存在」になれるか、ということである。人間の行動・意識は多様で複雑であるし、それらの要因の探索や行動の予測などのモデリングは、意思決定支援に対して一定の価値を維持し続けるとは思う。数理統計学の原理的な側面の理解を進めることで、より妥当にモデルの「良さ」を評価できるだろうし、機械学習領域とのつながりを維持して、統計的学習という領域とは仲良くなれる気がする。
ただ、それらを使った私の貢献に、世界はどれだけ価値を認めてくれるだろうか。
というか、今の自分の貢献に、世界はどれだけ価値を認めているんだったっけ。
周りのことを気にしてやりたいことが見えなくなった1年だった。
データ分析者のキャリアはマジでなんもわからんな。

無料で記事は読めますが恩を回して欲しい人はここに奉納ください。