見出し画像

生成AI時代にデータサイエンティストは必要? 求められるスキルとは?

はじめに

こんにちは!グロービスでデータサイエンティスト・アナリストをしている松浦です!
こちらはグロービスアドベントカレンダー9日目の記事です。
今年もたくさんのグロービスの開発組織の様子が分かる記事がたくさんありますので、併せて読んでみてください!

近年、生成AIの進歩が著しいですね!
日々データ分析に従事している身としては、特に、GPTのAdvanced Data Analysis(旧Code Interpreter)機能は衝撃でした。
個人的には、「今まで、一生懸命Pythonでコーディングしていた時間はなんだったのか!」と叫んでしまう感じの驚き具合でした。

そして、最近、このような生成AIの登場・進化を受け、巷では、「今後、データサイエンティストは要らなくなるのでは?」というような意見もチラホラと見受けられるようになってきました。

そんな中、先日、チームの同僚と「生成AI時代にデータサイエンティスト・アナリストに求められるスキルとは?」という問いについて雑談する機会がありました。
また、先日、データサイエンスチームで技術顧問としてお世話になっているデータサイエンティスト協会の森谷さん(森谷さんがどんな方かは本ブログの後半で紹介します)に、「2023年10月に改訂が行われたデータサイエティストスキルチェックリスト」についてレクチャーいただく社内勉強会がありました。

これらの機会を受けて、筆者の方でも、
「今後、データサイエンティスト・アナリストという職業・仕事は要らなくなるのか?」
「今後の生成AI時代に、データサイエンティスト・アナリストに求められるスキルとは?」
という問いに対して、自分なりの考えを整理・言語化してみたいなと思い、今回のブログで記載してみることにしました。

お詫びと前提

今回のブログでは、あまりグロービスのデータサイエンスチームのことについては触れていません。
(とはいえ、最後に少しだけ、グロービスのデータサイエンスチームの魅力について紹介させてもらいます)

つらつらと持論を展開するだけの内容ですが、グロービスで一緒に働くデータサイエンティストの1人はこんなことを考えているんだなぁ、的な感じで読んでもらえると良いかと思います。

また、以下に記述するのは、正解がある話ではないので、あくまで筆者の私見・予測であることご了承ください。

なお、読んで頂く上で、前提を揃えた方が良いと思うので、本ブログでの記述については、直近5年ぐらいの期間を想定することとします。
それより先の状況は、、、正直、分かりません、、、
また、今後のテクノロジー進化スピードが読めないので、もしかすると、2,3年後には全然違う状況になっているかもしれないです。

「今後、データサイエンティストが要らなくなる」という説について

筆者の意見:2割ぐらいはその通りだが、8割ぐらいは違う。

あくまで私の意見ですが、「2割ぐらいはそうかもしれない」ぐらいな感じだと思っています。
理由として、現状の見立てでは、生成AIで代替できるのは、「データ分析プロセス」における2割程度と予想するためです。
以下、この理由を詳しく説明していきたいと思います。

そもそも「データ分析のプロセス」とは?

以下のような5ステップに分けて整理することができます。

1️⃣要望・要件の明確化 → 2️⃣分析設計 ↔︎ 3️⃣データの収集・確認 → 4️⃣分析の実施 → 5️⃣ビジネス活用

参考:木田 浩理 他 著「データ分析人材になる。 目指すは「ビジネストランスレーター」」
本書記載の「5Dフレームワーク」を参考に、筆者で一部改変

この各プロセスを具体的に記載すると以下のような内容になります。

  • 1️⃣要望・要件の明確化

    • ビジネス上の問題を検討・ヒアリングし、特定する。

  • 2️⃣分析設計

    • 必要なデータの想定

    • 母集団や目的変数条件の設計

    • 各種説明変数の想定

    • 実行するためのリソース検討

  • 3️⃣データの収集・確認

    • 必要なデータの確認

    • 必要なデータの取得

    • 事前のデータ整備・処理・保管

  • 4️⃣分析の実施

    • データの抽出、分析用整形・加工

    • 適切な集計/可視化や分析アルゴリズムの実行/評価/改良

  • 5️⃣ビジネス活用

    • 結果の解釈/考察

    • ビジネスメンバーへのレポート作成と共有(場合によっては説得)

    • (アウトプットがAIやBIの場合)業務フローへの組み込み/モニタリング/改善計画

このプロセスは、普段データ分析に従事されている人であれば理解できると思います。

ちなみに、データ分析に従事されておらず、上記の内容が分かりにくい方は、データ分析プロセスを「料理」に例えると理解しやすいかと思います。

料理に例えた場合

  • 1️⃣要望・要件の明確化

    • 提供者の状況の把握やヒアリング等を通じて、食べたいもの・食べるべきものを明確にする

  • 2️⃣分析設計

    • 具体的なレシピや調理工程を考える・決定する

  • 3️⃣データの収集・確認

    • ストックしてある材料を確認する

    • 必要に応じて買いに行く

    • 材料の前処理を行い、(長期で)保管できる状態にする

  • 4️⃣分析の実施

    • (調理用に)材料を加工する

    • 調理する

  • 5️⃣ビジネス活用

    • 盛りつける

    • 提供する

    • 食事する

データ分析プロセスの中で「4️⃣分析の実施」が占めるのは2,3割程度しかない

データ分析プロジェクトの内容にもよりますが、上記のデータ分析のプロセスにおいて、「4️⃣分析の実施」が占めるのは2,3割程度しかありません
一方で、非データ分析者から時々見受けられる認識として、データ分析 =「 4️⃣分析の実施」と認識されてしまっていることがあります。
これは、上記の料理の例で言えば、「4️⃣の調理する」工程だけを「料理」と認識している、ということになります。

プロセスとしてどこまで捉えるかの話ではありますが、実は、データ分析において、「4️⃣分析の実施」以外のプロセスの方が、工数がかかる工程である、ということが、ここで主張したいことです。
また、同時に、データ分析プロジェクトの成否を決める上では、「4️⃣分析の実施」以外のプロセスも非常に重要です。
(先に参考として記載した、書籍「データ分析人材になる。 目指すは「ビジネストランスレーター」」にも同様のことが記載されています。)

(補足)「データ分析は前処理が8割」という格言について

ちなみに、上記の格言は非常に有名で、「データ分析において前処理が重要である」というメッセージ自体はその通りです。
一方で、この格言を見ると、「データ分析の全体において、データの前処理に必要な工数が8割で、分析の工数が2割」のように捉えられそうですが、これも、プロセスとしてどこまで捉えるかの話によります。

「データ分析は前処理が8割」という格言を正確に理解するならば、「対象範囲を「4️⃣分析の実施」に限った場合に、工数の8割を占める」、と理解するのが適切なのではないかと思います。
逆に、データ分析の5プロセスを全体と捉えると、既述の通り、「4️⃣分析の実施」はあくまで全体の一部分(2割程度)なので、2割の工程の中の8割を占めているだけ、という解釈になります。

現状、生成AIによって効率化される工程は「4️⃣分析の実施」が中心

現在、生成AIよって、データ分析プロセスにおける「4️⃣分析の実施」工程が、劇的に効率化されつつあります。
具体的には、以下のような処理が、生成AIによって、実行できるようになっています。

「4️⃣分析の実施」工程の内訳

  • データの抽出、分析用整形・加工

    • データの(一部の)前処理

  • 適切な集計/可視化や分析アルゴリズムの実行/評価/改良

    • 集計・可視化

    • 機械学習モデルの作成

    • 上記のための分析のコーディング(Python・SQL)やExcel処理 等

    • 分析結果の(一部の)解釈

一方で、「4️⃣分析の実施」工程以外のデータ分析プロセスを生成AIで実施できるかというと、現状は難しいと考えられます。
(資料作成等の汎用タスクや、「3️⃣データの収集・確認」工程の一部は、効率化が可能かもしれませんが)

「4️⃣分析の実施」も、あくまで「効率化」であって、「代替」ではない

生成AIによって、「4️⃣分析の実施」工程を処理できることは上述の通りです。
一方で、そのためには「生成AIに適切な指示を出すことができる」必要があります。
このためには、巷で言われるようなプロンプトエンジニアリングの技術も重要なのですが、これに加えて、「分析課題に応じて、具体的な分析方法を指示できること」も必要になります。
また、「生成AIからの出力結果を確認し、結果利用の可否を判断できること」も必要です。

例えば、「とある目的変数について、A群とB群に違いがあるかを分析をしたい」場合を考えた時に、以下のようなことを考えて、「指示出し・操作」や「結果を取得し、採用する(=責任を持つ)」必要があります。

  • 検定して統計的に有意かどうかを判断したいか?どれぐらい差があるかを知りたいのか?

  • 2群間の対応の有無は?

  • 単に平均値を比較するだけで良いのか?分布での違いの方が重要か?(パラメトリックか、ノンパラメトリックか?)

このようなことが理解できていないと、仮に、上記のようなお題を出されたとしても、「何を生成AIで実行すれば良いか」、また、「出力された結果を採用して良いのか」を判断することができません

そして、これらを実施・判断する上では、ベースとなるデータ分析のリテラシーやスキルが必要になってきます。
そのため、「4️⃣分析の実施」工程も、生成AIに「代替」される訳ではなく、あくまで、工程が「効率化」するだけと考えられます。

ちなみに、データ分析に携わる者の個人的な思いとしては、「生成AIを通じて「4️⃣分析の実施」工程が効率化されることは非常にありがたいこと」だなと感じています。
工程を省力化できるので、その分の余力を別のところに充てられるのは純粋にありがたいですよね!!
今後も、自身のデータ分析業務の中で省力化できるところは、どんどん省力化していき、その分、新たな分析テーマを企画したり、これまで挑戦できなかったチャレンジングな領域に取り組んでいこうと思います!!

ここまでのまとめと補足

ここまでの内容を振り返り、まとめていきます。
まず、一般的なデータ分析プロセスは以下のように整理でき、この中で、「4️⃣分析の実施」プロセスが占めるのは2,3割程度です。

1️⃣要望・要件の明確化 → 2️⃣分析設計 ↔︎ 3️⃣データの収集・確認 → 4️⃣分析の実施 → 5️⃣ビジネス活用
(再掲:データ分析のプロセス)

そして現在、生成AIによって、データ分析プロセスにおける「4️⃣分析の実施」工程の一部が、劇的に効率化されつつあります。
一方で、「4️⃣分析の実施」工程以外のデータ分析プロセスを生成AIで実施できるかというと、現状は難しいと考えられます。
そのため、筆者としては、「今後、データサイエンティストという職業は要らなくなるという説については、そんなこともなく、2割ぐらいはその通りだが、8割ぐらいは違う」と言える、と考えています。

補足1
仮に上記の「4️⃣分析の実施」以外のプロセスが生成AIによって代替・自動化されていくとなると、確かにデータサイエンティスト不要説は濃厚になっていきます。
ただ、それは同時に、データサイエンティストに限らず、非常に多くのホワイトカラーの職業の存在が不要になることを意味するのではないかと思います。
(技術進化が早すぎるので、実はこんな未来もすぐに訪れるかもしれませんが。)

補足2
ここまで生成AIについて着目してきたが、実は以前から「4️⃣分析の実施」工程をノーコード・ローコードで行えるツールが多くリリースされています。
(私もここ数年ずっと利用しています。機械学習のモデリング作業が非常に楽に行えて助かっています)
すなわち、生成AI登場以前から、「4️⃣分析の実施」工程の効率化(コードレス化)は、トレンドとして既にあったものでした。

本記事では「生成AI」について記述をしてきましたが、これまでの内容を「生成AI」→「ノーコード・ローコード分析ツール」で読み替えても同様のことが言えます。
そして、ここまで記載した内容は、「実は、今(生成AI)に始まったことではない」、ということが言えると思います。

補足3
ここまではデータサイエンティストという職業に注目して論じてきましたが、ここまで記載した内容は、ITエンジニア全般にも当てはまるのではないかと考えています。
ITエンジニアの仕事 = 「コードを書くこと」と定義すると、ITエンジニアの仕事は生成AIによって「代替」されていくと思います。
しかし、実際のITエンジニアの仕事はそんなことはなく、「コードを書くこと」以外にも、前後のプロセスで多くの工程・仕事が存在します。
そのため、ITエンジニアの仕事の「必要性がなくなる」ということはなく、あくまで、ITエンジニアの仕事が「効率化」される、ということなんだと思います。

生成AI時代にデータサイエンティスト・アナリストに求められるスキルとは?

雑に言ってしまえば、生成AIで効率化される「4️⃣分析の実施」プロセス以外のスキルは引き続き重要であると考えられます。

加えて、「4️⃣分析の実施」の工程についても、コーディングを中心とした分析実行のスキルは不要になってくるものの、データサイエンス理論の理解は、引き続き必要だと考えられます。
この理由としては、生成AI(やノーコードツール)を扱う上で、理論の理解がないと、「適切な分析の指示出しや適切な操作をするため」また「出力された結果の妥当性を判断できない(=責任を持てない)ため」です。
(既に上述した「あくまで「効率化」であって、「代替」ではない」という内容の理由と同様です)

そのうち、基本的な分析手法であれば、AI側で、状況や課題に応じた適切な分析手法を選択してくれるような日が来るような気もしますが、専門的な分析手法については、引き続き、適切な「指示出し・操作」や「結果の取得・採用」のための理論の理解は重要だと考えられます。

補足)
データサイエンス領域に限った話ではないですが、今後のAI時代において、「課題解決のために知っていれば良いだけの専門知識」の価値は低くなると考えられます。
一方で、「専門知識の内容・理論を理解して、複雑な状況に応じて適切に使い分ける力」は引き続き重要なのではないかと考えられます。

求められるスキルセットはどのように整理できる?

これを考える上では、先ほどのデータ分析のプロセスに加えて、データサイエンティスト協会が提唱するところの「ビジネス力」・「データサイエンス力」・「データエンジニアリング力」のフレームを用いると便利です。

引用:https://www.datascientist.or.jp/dscertification/what/

また、データ分析のプロセスに上記の3つのスキルセットを当てはめると、以下のように整理されます。

引用:https://www.valuesccg.com/works/20220620-2814/

ここまで記載したことを上図で見ると、(4️⃣分析でのコーディングスキルは除かれるものの)「ビジネス力」・「データサイエンス力」・「データエンジニアリング力」が、それぞれ重要であることは、今後も変わらないと考えられます。

生成AI時代のデータサイエンティスト・アナリストとして、データサイエンス領域のどこに注力するか?

一方で、3つのスキルセット全てを高いレベルで有していて、どんなプロジェクトでも全工程を完璧に1人でこなせる「スーパーデータサイエンティスト」は、この世に一握りであり、目指すのも難しいのではないかと思います。
これは今までも今後も、変わらないのではないかと思います。
そのため、「自身の強みとして、データサイエンス領域のどこに注力するか?」を考えることは、今後も非常に重要になってくると考えられます。

そして、この問いは、以下の大きく2つの方向性に分けられるのではないでしょうか。
①ビジネス力に注力するパターン
具体的には、顧客や社内ビジネスサイドのフロントに立って、分析プロセスの最上流の「1️⃣要望・要件の明確化 」や次工程の「 2️⃣分析設計 」、加えて、最下流の「5️⃣ビジネス活用(レポーティングや結果の現場での利活用促進・説得)で貢献する力を伸ばすパターンです。
生成AIによって、上記工程の一部の作業が効率化することはあるかもしれませんが、現状この領域は、まだ、AIやツールでは代替されにくい領域と考えられます。
ちなみに、筆者の松浦は、グロービスにおいて特にこの役割(プロセス)の業務比率が高く、強みとしている領域です。

②データサイエンス力やエンジニアリング力などのテクニカル面での専門性を磨くパターン
「2️⃣分析設計」・「3️⃣データの収集・確認」・「4️⃣分析の実施」のプロセスで、専門性を武器に、価値を発揮するパターンです。(繰り返しですが「4️⃣分析の実施」でのコーディングやエンジニアリングのスキルは、今後重要度が下がるので除きます。)
やはり、専門的で高度なプロジェクトを進めるためには、相応の専門領域の理解がないと、2️⃣〜4️⃣のプロセスの実行(具体的には、課題に対して、どのように分析を設計し、データを加工し、分析して、結果を解釈すべきかを判断すること)ができません
そのため、データサイエンス力やデータエンジニアリング力といったテクニカル面で、専門性を磨くことにも、引き続き価値があるのではないかと考えられます。

  • 例えば、データサイエンス領域では以下のような専門領域が考えられます(データサイエンテイスト協会のスキルチェックリストより抜粋)。

    • 機械学習での専門性(不均衡データへの対応・モデルの適切な評価・次元圧縮の適切な利用など)

    • 因果推論

    • アソシエーション・レコメンド

    • 時系列分析

    • 異常検知

    • 強化学習

    • ネットワーク分析

    • 画像・音声の認識・判別

    • シミュレーション・データ同化

    • 数理最適化

    • (今回の改訂で追加)生成AI・LLM

ちなみに、当社の菅沼は、ビジネス力に加え、因果推論の専門性も高いデータサイエンティストです。
そして、グロービスのデータサイエンスチームでは、様々な効果検証のシーンで、因果推論に取り組んでいます。
(当社での取り組みに興味がある方は、以下のテックブログをご参照下さい)

生成AI時代においても、「データサイエンス力」や「データエンジニアリング力」の中の各専門領域で強みを磨いていくことは、データサイエンティストの今後のキャリア形成に有用なのではないかと考えられます。

データサイエンティストとしての生成AIとの向き合い方は?

すいません、この問いについては正直、私としても自信がないです。。。
が、現時点で何となく考えていることを書いてみたいと思います。

まず、データサイエンティストに限った話ではないですが、巷で言われているように、生成AIをはじめとしたテクノロジーの進化をキャッチアップして、「何ができるのかを知ること」や「実際に使ってみること」は重要だと考えられます。

また、データサイエンティストとして生成AIに関して有しておくべきスキルが、データサイエンテイスト協会のスキルチェックリストに公開されており、このリストも大変参考になります。
詳細は、実際のチェックリストを参照いただければと思いますが、概要としては、生成AIに関して各領域毎に、以下のようなスキルが定義されています。

  • ビジネス力

    • ビジネス力が関連する全ての工程に関連して、生成AIの利用・注意点を考慮できること

    • 具体的には、「生成AIの利用を企画するスキル」、「生成AIに関連する新たな課題(推進・法規制・倫理)への対応・マネジメントを行うスキル」、など

  • データサイエンス力

    • 生成AIを独自に使いこなすための大規模言語モデル自体への理解やチューニング技術の理解、など

  • データエンジニアリング力

    • 生成AIのチューニング実装や環境の構築、生成AI利用に向けたデータ基盤整備、など

前章にて、「自身の強みとして、データサイエンス領域のどこに注力するか?」ということを書きましたが、上記の通り、「①ビジネス力に注力するパターン」、「②データサイエンス力やエンジニアリング力などのテクニカル面での専門性を磨くパターン」のいずれでも、生成AIの存在は無視できず、日々キャッチアップしていくことが必要であると考えられます。
また、上記①や②という切り口だけでなく、「③生成AI自体を専門領域として、ビジネス・データサイエンス・データエンジニアリングを包括するデータサイエンティスト」という方向性も、今後はあるのではないかと考えています。

最後に:データサイエンティストにとってのグロービスの魅力のご紹介

ここまで、グロービスのこととはあまり関係のない私の考えを書かせてもらいました。
さすがにこのままでは終われないので、最後に、ここまでの生成AIの話も絡めながら、データサイエンティストにとってのグロービスの魅力を紹介させてください。

ここでは大きく3つを紹介します。
また、その他にも、グロービスには魅力的な制度や風土がたくさんありますので、本ブログ下部リンクの「GLOBIS データサイエンスチームのご紹介」についても、併せてご覧ください!!

①生成AIを利用した機能開発に携わっている

既に、GLOBIS学び放題では生成AIを活用した機能を実装しています
そして、この機能開発に関しては、データサイエンスチームも携わっております
そのため、生成AIを活用した機能開発に携わることができるチャンスがあるのは、魅力の1つかと思います。
参考までですが、データサイエンスチームで生成AIを活用した機能の開発に携わっている機械学習エンジニアの田邊さんのテックマガジンを添付します。
田邊さん曰く、自由研究的な取り組みとのことですが、とても面白い内容です。

②技術顧問にデータサイエンティスト協会の森谷さんがおり、自由にディスカッションできる

森谷さんの紹介(GLOBISデータサイエンスチームの採用スライドより)

はじめに書いた通り、今回、本ブログを執筆しようとしたきっかけは、「データサイエンティスト協会のスキルチェックリスト改訂に関する勉強会」を森谷さんに実施いただいたことでした。
データサイエンスチームでは、森谷さんと週に1回、この様な勉強会や、技術課題に関する相談会の機会があり、専門家目線での意見や、普通は知ることができない貴重な情報をもらうことができます。

③グロービスでは自律的にキャリアを形成し、スキルを広げていくことができる

グロービスでは、「キャリアを自ら作る」考えのもと、本人の希望次第で、様々な制度を用いてキャリアを自ら設計していくことが可能です。

GLOBISデータサイエンスチームの採用スライドより

グロービスでは、会社から定められたキャリアパスを(強制的に)辿るのではなく、自身の意思次第で、取り組む機会や制度を選択することができ、上司もそれを支援してくれます。

生成AI技術の登場で、データサイエンティストとしてのキャリアの可能性がさらに広がりましたが、「生成AIの活用領域にトライしてみたい!」という様な意思があれば、上述のような業務にアサインしてもらえる機会もあるかと思います。

生成AIの話は一例ですが、データサイエンティスト・アナリストとして「自律的にキャリア形成していきたい!」また、「データ分析に留まらず別の領域にもチャレンジしてみたい!」という方には、とてもフィットする環境だと思います!

グロービスで一緒に働くデータサイエンティスト・データアナリストを募集しています!

グロービスのデータサイエンスチームでは、一緒に働くデータサイエンティスト・データアナリストを探しています!
共に、社会人学習に関する様々な要因を解き明かし、社会人の学びの未来を切り開いていきましょう!
まずは、カジュアル面談を通して、あなたに合う組織かどうか確かめてみませんか?お気軽にご連絡お待ちしています!

グロービス デジタルプラットフォーム部門 エンジニア・デザイナー 採用情報

この記事が気に入ったらサポートをしてみませんか?