まだ「データサイエンティスト」を目指して消耗してるの? 〜文系未経験者のキャリア戦略〜
※課金なしで全文読めます(気が向いたら投げ銭をいただけると嬉しいです)
こんにちは。ヤエリ(@yaesuri_man)です。
Harvard Business Review誌にて「21世紀で最もセクシー」と形容(※1)された、データサイエンティストという職業。
あれから約10年が経ち、我々を取り巻く環境はガラッと変わりました。
・第三次AIブーム
・kaggleを中心とするコンペティションの民主化
・内閣府のAI戦略(人材育成関連)発表
・AutoMLの台頭
・コロナ
などなど・・・
最近のブームでこの職業に憧れを持っている方も多いと思いますが、今後は未経験の状態からデータサイエンティストを目指す方にはいばらの道のりが待っていそうです。
というわけで、普段私が感じている足元の状況を踏まえながら、文系未経験からデータサイエンティストを目指す方のキャリア戦略について書いてみたいと思います。
【この記事を書いている人】
IT企業所属の自称「ビジネス支援型データサイエンティスト」です。元エンタープライズセールスで、BIや分析受託を売っていたらいつの間にか今の仕事をしていました。自己紹介記事は以下です。
【この記事の結論】
・文系未経験者がガチデータサイエンティストを目指す道のりは長く険しい
・これからは「ビジネス力」「エンジニア力」など、これまで培ってきたスキルを活かす道もアリ
・いきなり転職ではなく、まずは自部門内における「No.1 AI人材」を目指すのがおすすめ
【記事の対象者】
・ある程度の実務経験を積んだ方
・これから実務経験を積もうとしている(スキル蓄積中の)若手
・データサイエンティストに興味をお持ちの学生さん
【このnoteのご感想】
まずはここ10年を振り返り、データサイエンティストを取り巻く環境変化について思う所を書き連ねてみたいと思います。
環境変化その①「データサイエンス人口」が増えた
まずはこれ。とにかくデータサイエンスに携わる人が増えました。
信じられないかもしれませんが、今から10年ほど前は「データサイエンティスト」という職種は全く認知されておらず、この領域に携わっている人はほんのごく一部のマニアックな研究員だけでした。
それが冒頭にも紹介した通り、Harvard Business Review誌にて「21世紀で最もセクシー」と形容されたり、将棋における米長永世棋聖の敗退(※2)や電王戦の終了(※3)、東ロボ君プロジェクト(※4)、オックスフォードのオズボーン教授による「雇用の未来」の発表(※5)などなど、2013~2015年頃から私の周辺がガヤガヤし始めました。
データサイエンス人口が増えたことでCourseraだけでなく国内にもUdemyやAIdemyといったオンライン講座が出現しましたし、昔は有名なコンペティションといったら年一回のKDD CUP(※6)くらいだったのが、今はkaggle以外にもSIGNATEやNishikaといった純国産サイトが出現、かつ非常に分かりやすい手引き本なども出版されており「機械学習コンペティションの民主化」(※7)が一気に進んだと言ってもいいくらいです。
一方、データサイエンスに興味を持つ人が増えた結果どうなったかというと、今起きていることの一つがpythonコーダーの単価下落。
ここでいう「pythonコーダー」とは、上司や業務部門、顧客の指示のもとにpythonを使ってデータを加工したり可視化したり、モデルを構築したりする人のことを指しています。
絶望的なレベルで人がいなかった一時期と比較すると、最近は手を動かすだけの人であれば比較的容易にhiringできる状況になりつつあります。つまり雇用される側としては競争率が上がり、年収が上がりにくくなっているのです。
発注側の感覚でいうと、多くても人月70~80万。正社員として雇うなら年収350~450万からといった雰囲気ではないでしょうか。pythonさえできればデータサイエンティストとして雇ってもらえた一昔前と比較すると年収ベースで100万円ほど落ちてきています。発注する側が現実を見始めたというのもありそう。
私はスタートアップから営業を受ける立場でもあるのですが、昨年くらいから「kaggle masterが多数在籍!」をPRしてくる企業が少しずつ増え始めました。現実的にはkaggle masterの数を発注条件として考慮することは無いものの、kaggleが市民権を得て営業トークとして使われるようになるとは凄い世の中ですよね。
更に世間一般の流れとしては、データサイエンスに携わる人はどんどん増える傾向にあります。
気になる人は内閣府が発表している「AI戦略2019」(※8)にも目を通しておくと良いでしょう。来るべきデジタル社会に備え、日本の国力を向上するための施策がまとめられている資料です。この中で触れられている教育方針に関する部分を超ザックリ解説すると以下。
こうなると現社会人である我々世代は悲惨でして、
つまり今後10年程で、高校で「数理・データサイエンス・AI」を当たり前のように身につけてきた世代が社会人デビューし、かつ我々は同じ社会人として、同じ土俵で彼らと比較され始めます。
過去にまともなインターン生を受け入れたことのある方はよくご存じの通り、優秀な学生は仕事のできない会社員よりよっぽど優秀。ただでさえリストラの嵐が吹き荒れる(※9)アラサーアラフォー世代。しっかりした教育を受けた世代が世に出てくることで、会社員としてはなおさら不利な状況に追い込まれるわけです。
環境変化その②AutoMLも進化している
皆様は「AutoML」を使ったことはありますでしょうか。
有名どころでいうと、
・Google:AutoML Tables
・Microsoft:AutomatedML
・Amazon:Amazon Forecast
・Sony:Prediction One
などなど。
実際に使ったことのある方はお分かりになると思いますが、これら全てゼロからpythonで記述するのと比べるとかなり楽にモデリングができてしまいます。
更にここ数年の進化度合いを見ると、将来は
・現場担当者でも使えるようになる(民主化が進む)
・データサイエンティストの仕事も変わる
位の希望と危機感を感じられるソリューションです。
特にご紹介した中でもソニーのPredictionOne(※10)はユーザ登録さえすればすぐにダウンロード&インストールできますので、AutoMLがどんなものかを知るためにも一度試してみると良いでしょう。
現時点はあからさまなleakageですら検出できず、普通にAUC=0.99みたいな結果を返してしまう可愛さがありますがそこはご愛敬。さすがは日本製ということで、可視化の表現などは外資系アプリケーションより洗練されている部分もあります。
今後改良が加えられ、将来的には、
・モデリング自体はAutoML
・人間は課題設定や前処理、結果解釈を行う
というように役割分担が変わり、データサイエンティストに求められる能力も大きく変わっていくでしょう。
環境変化その③コロナの影響
最後はコロナの影響です。
コロナによる在宅勤務がさらに定着すると、これまでの人月ビジネスは崩壊し、顧客価値基準は「何時間働いたか」よりもアウトプット自体に目が行くようになると想定しています。
これまでの駆け出しデータサイエンティストの教育手法であった「ひざを突き合わせたOJT」はしにくくなり、不要不急の研究開発費用も削られることからも、未経験のデータサイエンティスト志望者にとっては受難の時代が来るでしょう。
詳細は2020年4月の対談「コロナ時代を生き抜くデータサイエンティストのキャリアビジョン」の様子をご参照頂ければ幸いです。
色々と書いてしまいましたが、徐々にではあるものの、ここ最近までは売り手市場だったデータサイエンティストという職業に変化が生まれてきていることは間違いないでしょう。
では、文系未経験者はどうすればいいのか?
以上を踏まえて、文系未経験者は今後どのようなキャリアプランを描けばよいのでしょうか。
ここで参考となるのが、以下2つの書籍です。
一つはのぐりゅうさん(@noguryu)の「文系AI人材になる」。
もう一つは、安宅さん(@kaz_ataka)の「シン・ニホン」です。
それぞれの内容をネタバレしない程度に簡単にご紹介します。
「文系AI人材になる」に書かれていることの一部
※出典:文系AI人材になる
ざっくり、この本のこの章に書かれていることは以下。
「データサイエンティスト」というと、データモデルを作ったり精度を上げたり、いわゆる「AIを作る(AI構築)」業務ばかりが注目されていますが、実際には上記の通り、プロジェクトを回すために多様な人材が必要。
これら全ての仕事を、いわゆる「データサイエンティスト」と呼ばれる人達が、データモデルを作る裏側で一生懸命頑張って実施しているのが今の状況です。
要は、全てをガチ理系のデータサイエンティストに任せるのではなく、餅は餅屋で文系職もフォローした方がうまく回るはず、という事が書かれています。
「シン・ニホン」に書かれていることの一部
一方で、安宅さんは「シン・ニホン」の中で「ドメイン知識の重要性」に触れています。
※出典:シン・ニホンより
改めて説明するまでもありませんが、安宅さんが理事を務めるデータサイエンティスト協会が定義するデ―タサイエンティストの「3つのスキルセット」は以下の通り。
※出典:データサイエンティスト協会
またこれら3つのスキルはプロジェクトのフェーズによって重心が変化します。
出典:データサイエンティスト協会
小規模な機械学習プロジェクトであれば一人のデータサイエンスエキスパートが全フェーズを回すことが普通ですが、ある程度以上のプロジェクトになると、3領域全てにおいてミニマムレベルを持ち、かつどれかに軸足を持つメンバーがチームを組んでお互いを補完し合うのが普通です。各フェーズによってチーム構成を変えながら、プロジェクトをうまく回していくわけです。
ネットやtwitter上はガチデータサイエンティストの声が大きいのでしょうがないのですが、つまり私がここで言いたいのは、ガチデータサイエンスに軸足を置く道ばかりではなく、最低限のデータサイエンス力とデータエンジニア力を兼ね添えた上で、ビジネス力に軸足を置いて生きていく道もあるということ。
加えていうと、これまで貴方が積んできた経験を活かせる可能性もあるのでは?ということです。
文系未経験者のキャリア戦略 ~ 5つの方向性 ~
これらを踏まえて、文系未経験者のキャリア戦略(キャリア選択の方向性)について考えてみたいと思います。実際に私の周りには以下のキャリアを選択して活躍している方が何人もいらっしゃいますので、その具体例を交えて紹介します。
キャリア戦略①AIコンサルタント
一つ目は「AIコンサルタント」です。
この職種は、
・誰のためのAIか
・なぜAIが必要なのか
・どのタイプのAIを活用するのか
・どんなAIを活用するのか
・どのように分業するのか
・いつまでにどう準備するのか
といったAI企画の5W1Hを練りつつ、自らの経験と照らし合わせて「この場面だったらこれが合うのではないか(合わないのではないか)」という方針を考えながら、計画の解像度を上げていく仕事。いわゆる機械学習の業務適用の最上流です。
文系/理系、職種に関わらず、問題解決型の案件に携わってきた経験のある方であれば、チャレンジする価値はある職種といえるでしょう。
必要となるスキルは言うまでもなく、コンサル力やコミュ力、ドメイン知識、分析・課題解決力・・・と多岐に渡ります。
ちなみに現在の私は、「ビジネス支援型データサイエンティスト」を名乗らせて頂きつつ、実際の業務としてはお客様の
・AI企画の支援
・AI方針・投資判断の支援
をさせて頂いています。「コンサル」という言葉がしっくりこないのでそうは名乗っていませんが、実質的にはAIコンサルタントです。
ちなみに、三井住友海上の木田さんは、この役職に近い役割を「ビジネストランスレーター」として定義されています。
木田さんが提唱されている分析プロセス「5Dフレームワーク」は、恐らく今後認知が広まるのではないかと期待しています。似たようなプロセスにCRISP-DMがありますが、こちらよりも用語が平易で多くの方に受け入れられやすいんですよね。
ちなみに私と同じく文系卒営業から分析人材へ転身された数少ない方の一人です。
キャリア戦略②AI導入におけるプロジェクトマネージャー
次にご紹介するのが、「AI導入におけるプロジェクトマネージャー」。
IT企業でPM経験を積まれたことがある人には分かりやすいですが、システム開発案件は大規模になればなるほど全体を俯瞰して管理をする役割が必須となります。
ある程度の規模のAI導入プロジェクトも同様に、一歩引いた立場でプロジェクトの進捗を管理し確認していく役割が必要。
どちらかというとこちらはIT企業におけるエンジニアの最上位職というイメージで、理系の方が多い印象になります。必要となるスキルは言うまでもなく、プロジェクトマネジメントに必要となるスケジュールや予算、リソースなどを管理する能力のほか、顧客折衝のためのコミュにケーション力、ある程度のドメイン知識やテクニカルと多岐に渡ります。
私の周りでこの職種に就いている方のキャリアは以下2パターン。
・元々はデータサイエンティストだったが年次が上がり、マネジメント職(DSを管理する立場)となり、プレイングマネージャーとしてPMもやっている人
・元SEが出世しPMとなり、データサイエンスの基礎を身につけ転職したパターン
歩んできた道は異なりますが、どちらのPMも立派に職務をこなしており、頼れる存在です。
キャリア戦略③GUIを活用するAI構築エンジニア
仮に機械学習アルゴリズムを自社開発することになった場合は、社内メンバーがGUI環境を使って構築する可能性もあります。その際はこの「AI構築エンジニア」の役割が必要になるでしょう。
必要な技術はツールへの習熟。ですが結果を正しく解釈したりなど、最低限の数理統計は当然必要になります。
そこまで詳しい知識は必要ないため技術的には他のメンバーに取って代わられる可能性もあるものの、まずはここからチャレンジしてドメイン知識を磨き、データサイエンティストを目指すパスもありでしょう。
現状私の周りでこれをやっている方は、現場からデータ分析部門に新しく加入されたメンバーであることがほとんど。pythonとSQLの学習をしつつAutoMLを駆使してモデリングをするわけです。今後AutoMLが更に一般的になれば、これを使うことが前提の職種として認知されていくことでしょう。
必要となるスキルは特にはありませんが、しいて言えばやはり現場経験がありドメイン知識のある方は有利となります。多くの企業は、技術も知識も無い未経験者を育てる余裕は無いからです。
キャリア戦略④AIの運用を考えるエンジニア
この仕事は、既に構築されたAIを職場や店舗などに導入するために、業務プロセスの詳細を加味した導入計画を立てたり、現場導入作業自体を行ったりする役割です。
データモデルは作って終わりではなく、ビジネスに結び付けて運用し続けて、初めて継続的な価値を生み出すことができます。また構築したモデルは使い続けるうちに陳腐化します。その精度をいち早く検知し、リフレッシュするための運用フローを考えるのもこのエンジニアの役割。地味ではあるものの、いわゆるMLOps(モデルの監視・運用)を行う上で必須となる、縁の下の力持ち的な存在となります。現在はモデルを作るデータサイエンティストばかりがもてはやされていますが、今後はMLOpsの領域にも注目が集まるはずです。
私の周りでは、SES(客先常駐型のエンジニア)の中で特に運用からスタートした若手がこの職種にキャリアチェンジシした、というパターンが多いです。
テクニカルだけでなく、運用保守の厳しさ・泥臭さを経験したような方は強いでしょうね。
キャリア戦略⑤AI関連の受託会社の営業
最後5つ目は意外かもしれませんが「AI関連の受託会社の営業」です。
要は、データサイエンティストやここまでにご紹介した①~④の職種、もしくは分析業務を販売するための、受託側の営業を指しています。
これらを営業するためには当然機械学習をビジネス適用するためのメリットを語れることはもちろん、最新の事例に敏感であることや、筋の良いテーマの見極めなどが必要になります。
最近はだいぶ減ってはきたものの
・「AI」凄そうなので、とりあえず何かして欲しい
・役員から「AIで何かやれ」と言われて困っている
というような顧客からの依頼に対し、前さばきをして、機械学習を使って勝ち負けできるテーマを選別し、それを受注するわけです。
現状は、仕事のできるデータサイエンティスト本人やマネージャー、小規模のスタートアップであれば社長自らが、忙しい合間を縫って営業をしているような状況。これまで営業として経験を積んできた先任者であれば、今から専門性を身につけ始めても十分勝ち目はあるでしょう。
ちなみに過去の私はこの「⑤受託会社の営業」。ここから「①AIコンサルタント」にステップアップしました。詳細はこの記事をご参照頂けますと幸いです。
具体的にどう動くべきなのか
ここまで、いくつかの方向性について説明させて頂きました。
ここからは具体的な動き方について解説させて頂きますが、転職のような華々しい手段(華々しくも、リスクも高い手段)よりも、手堅い方法をお勧めしています。拍子抜けしてしまったら申し訳ございません。
アクション①自部門におけるNo.1AI人材になる
私が最もおすすめしたいのがこちら。現在あなたが所属している部門の中において、とりあえずNo.1のAI人材になり、その上で上記で紹介した方向性に近づけていくことです。
世間一般を見渡してみますと、第3次AIブームとは言われているものの、
・実際に自分の手を動かしてAIを構築した
・機械学習してみた
という人はほとんどいない点はお分かり頂けると思います。
ですので、まずはあなたがアクションを起こし、No.1人材になってしまい、周囲にPRするのです。
ただし、ここまでにご紹介させて頂いた書籍を読んだ、だけではちょっと弱く、実際に手を動かすことが必要。
具体的には、
などなど。
Anacondaのインストールやkaggleチュートリアル(タイタニック)については以下のブログエントリーをご参照下さい。
タイタニック終了後にトライして欲しい「任意のデータセット」については、現在貴方が携わっている教科や業務に近しいものがおすすめ。
最近は「Googleデータセット」で一般公開されているオープンデータを検索することも可能ですので、こちらで探してみてください。
AutoMLを使ってみたいという方は、先にご紹介したSONYのPredictionOneやDataRobotが有名です。PredictionOneは誰でも無料体験が可能ですので、AutoMLがどんなものかを理解する意味でも試してみることをおすすめします。
身の回りに機械学習に適する業務が無いかを探す際に参考となるのが、DataRobot社がリリースしている「Pathfinder」。
15業種、100を超える機械学習テーマが掲載されていますので、自分の業界に合ったものを見つけることができるかもしれません。事例の中には具体的な教師データの内容まで言及されているものもあります。成功している他社事例をそっくりそのまま参考にさせてもらうわけです。
AIに関するニュース配信については簡単ですよね。Googleアラートなどに「AI」「データサイエンス」などの単語を登録しておき、気になったものを自部門全体のエイリアスに配信するのです。
ニュース配信の効能については以下の記事にまとめております。
貴方が所属している業務領域においてトップAI人材になることができれば、自部門において一目置かれたり、それなりの部門に異動したりすることができるでしょう。
アクション②転職する
上記手段で社内をくまなく見渡してみて、既にこの会社でそのポジションが無いということが判明したら、そこで初めて転職を視野に入れると良いと思います。
twitterやネット上を見ていると色々な意見がありますが、個人的にはやはり転職はリスクがつきものと考えています。まずはローリスクな社内異動という手段を模索し、それでもダメな場合に初めて転職を考える、位の気持ちが良いでしょう(特に大企業においては、部署が変われば別の会社くらい、文化が変わるものです)。
文系未経験者のキャリア戦略 まとめ
システム開発手法がまだ確立されていなかったIT黎明期。当時はごく一部のスーパー研究員が、システムの要件定義から仕様への落とし込み、エンジニアリング、H/Wの構築、運用保守に至るまで、全てを担当していました。その後ITの重要性が認知され案件数や規模が大きくなるにつれ、次々とPM、APエンジニア、SE、PG、H/Wエンジニア、CEといった職種が誕生した形です。
データサイエンスを取り巻く環境も同じ。現在一部のデータサイエンスエキスパートが行っているコンサルやモデル構築、実務適用、モデルリフレッシュ、営業というタスクは、将来的には次々と細分化され、新たな職種が生まれることでしょう。
皆さんもご存知の通り、データサイエンスの世界は東大京大出のPh.Dがウヨウヨ。執務後の勉強や論文の執筆査読が趣味というような方々ばかりですので、当然ですが我々凡人が普通に勝負を挑んでも勝ち目はありません。
今回ご紹介させて頂いた職種は、昨今の状況を考えればいずれも文系未経験者が知識ゼロからガチデータサイエンティストを目指すよりも現実的な選択肢だと考えています。今後キャリアを積んでいく上では、自分の強みを振り返りながら、少し軸をずらす(自分に有利なフィールドで戦う)ことをおすすめします。
以上、ここまでお読み頂きましてありがとうございました。
他にもこんなブログを書いていますので、よろしければこちらもどうぞ。
【注釈】
※1:「Harvard Business Review」2012年10月号
※2:当時日本将棋連盟会長であり永世棋聖である米長邦雄氏が、富士通研究所の伊藤英紀氏が開発したコンピュータ将棋「ボンクラーズ」と勝負する、人間vsコンピュータの象徴のような戦いであり、後に続く「電王戦」の前哨戦。この時の様子は、米長永世棋聖の著書「われ敗れたり~コンピューター将棋の全てを語る~」として出版されている。米長棋聖がどのような思いでこの対局に臨んだか。研究に研究を重ねた初手「6二玉」。対局前に奥様に言われた言葉「現役時代と違い愛人のいない今のあなたは勝負に勝てない」。対局の年の暮れに他界された米長棋聖、恐らくご自身の寿命が長くないことを意識して執筆されたものと思われる。勝負の凄みと面白さが凝縮されている、データサイエンスとは関係無しに是非読んで頂きたい珠玉の一冊。
※3:※2でご紹介した米長永世棋聖が創設・ドワンゴが主催するこちらも人間vsコンピュータの象徴のような棋戦。電王戦FINALでは人間である棋士がいわゆる「ハメ手」を使いコンピュータに勝利。物議を醸す結果となった。この時の様子はニコニコ生放送にて中継され、かつ「ルポ 電王戦 人間 vs. コンピュータの真実」としてNHKから出版されている。こちらも是非読んで頂きたい一冊(kindle unlimited加入で無料で購読可能)。
※4:国立情報学研究所の新井教授が中心となって行われたプロジェクト「ロボットは東大に入れるか」において研究・開発が進められた、東京大学に合格できるだけの能力を身につける事を目標としたロボット。結果的に東大含む旧帝大の合格は果たせなかったものの、ほとんどの私大は合格可能となったその能力、更には研究の結果浮かび上がった日本の大学生の国語能力の低下などが話題となった。東洋経済新報社から出版された「AI vs. 教科書が読めない子どもたち」は、2019年のビジネス書大賞を受賞。
※5:英オックスフォード大学でAIの研究を行うマイケル・A・オズボーン准教授が発表した論文。米国において10~20年内に労働人口の47%が機械に代替されるリスクが70%以上、という推計結果を発表し、世界中で話題となった。ざっくりとした内容は以下エントリーを参照のこと。
※6:Knowledge Discovery and Data mining。米国を中心とするコンピュータ科学分野の国際学会である「ACM」内の一分科会が開催する、世界でもトップクラスのデータサイエンティストが集う競技会。1997年から毎年開かれている。
※7:日本国内におけるkaggleコンペティションの民主化への貢献者は言うまでもなくu++さん(@upura0)とカレーちゃん(@currypurin)。カレーちゃんのnote「kaggleチュートリアル」やお二人の共同執筆本はkaggle初学者のバイブルと言えるレベルの良書。
※8:詳細については以下のブログエントリーを参照のこと
※9:令和元年はリストラ元年。詳細は以下ブログエントリーを参照のこと
※10:ソニーネットワークコミュニケーションズが提供する、AutoMLパッケージソフトウェア。教師データを準備すれば基本的にはpythonの知識無しでデータモデル作成と予測が可能。かつ記事執筆時点は無償で利用可能。
※気が向いたら投げ銭をくださいますと幸甚です。結構な励みになります。
ここから先は
¥ 100
この記事が気に入ったらサポートをしてみませんか?