データ分析チームの作り方

この記事はデータ分析チームの作り方 (Japanese) Tankobon Hardcover – September 18, 2019が元になっています。

モダンデータサイエンスとは何か? 

本書でのデータドリブン企業の定義は、モダンデータサイエンスを活用して、業務を自動化・効率化してコスト削減をする企業とされています。
モダンデータサイエンスとは、2012年頃から急速に発展して来た解析用オープンソースツール群を活用したデータサイエンスを指します。
ここには最近出てきたAIの活用も含まれます。

モダンデータサイエンスの発展背景

①機械学習分野の研究の発展
機械学習がデータの生成量爆発的に変化したことから、演繹的なアプローチから、帰納的アプローチに変わったことがあります。

②コンピューターの処理速度の向上
現在の深層学習のモデルは30年以上前からありました。当時の処理速度ではモデルを十分に学習させられないという課題があったのですが、それが近年解消されました。

③クラウドコンピューティング、ビッグデータ処理技術の向上
これまで順番に1つ1つしか処理できなかったのが、クラウド上で多くのコンピューターを用いて並列的に処理することで、データの処理時間を飛躍的に下げることが可能になりました。

④データ解析分野のオープン化
オープンソースプロジェクト、論文のオープン化により、自前で作らなくても解析することができる範囲が広がりました。

これらの影響により近年データサイエンスの形が大きく変わり急速に発展してきたのです。
そのモダンデータサイエンスチームはどのように構成したら良いのでしょうか?

データ分析チームの構成

チームによって分け方が異なるのですが、大きく分けると3つに分類できます。
①データアナリスト
ビジネス領域に近い立ち位置で、主に日々の経営指標のモニタリングとその改善を担当します。

②データサイエンティスト
ビジネス側、エンジニアリング側の両方の間にたち、主にデータ戦略から解析業務まで幅広く担当します。

③データエンジニア
エンジニアリングチームとデータサイエンティストと協力し、データ解析のためのデータ整備から解析や実験の基盤の構築と運用を担当します。

リクルートライフスタイルの例
チームの立ち上げの段階では、統計的なことも最適化やオペレーションリサーチなど全般にできる人と、エンジニア2人で開始したようです。

一般にデータの活用が進んでいる米国に比べて、日本はAI人材を雇う傾向にあるのですが、「Garbage in, garbage out」という言葉があるように初期はデータを使えるようにするのを先にした方が良さそうです。
ちなみに日本は米国に比べて機械学習エンジニアの求人が2倍以上しているのに対して、データサイエンティストの求人は米国の4分の1となっています。

データチーム立ち上げ手順

①経営陣によるデータやAI活用のコミットメントの確認
マッキンゼーの調査によると、CXOの直接的な取り組みの支援により、2.75倍データ分析チームが機能するというデータがあります。
これはデータ分析チームが効果を発揮するまでがかなり長期戦になる一方、他部署との連携が必要になるため、連携を積極的に促してもらえるかどうかがキーになるためです。

②チームの責任者(データサイエンティスト)の採用
ビジネス観点でのデータ戦略から実際のデータ解析業務までを幅広く統括することが求められます。
幅広く見る必要があるので特定領域に特化した人材よりも、様々な分野を経験してきた人が適任です。
もう1つのポイントがキャッチアップ力です。
必要な箇所だけを見極め、集中的に短期間で習得し、課題に応用する力が必要になります。

③横串の分析チームを立ち上げる
データサイエンス業務は解析で解ける事業課題を見つけ出し、従業員からのヒアリングを通じて課題を理解し、解析で使えそうなデータを模索し解析開始後は担当者に進捗を共有しながら作業を進めます。
この時のポイントが以下2つです。
(1)各部署に横断して満遍なく古ピュニケーションをとることで社内の事業課題を把握する
(2)あらゆる部署の解析課題とそれに対するソリューションやナレッジを1つの場所に集約すること

結果、各部署に対して横串を指す形でのデータ分析チームとなります。

④データエンジニア採用
③まででデータ活用を進めるための枠組みは整いました。
データ解析では類似した工程が多々存在します。その工程を自動化したり、データパイプラインの設計やデータウェアハウスを運用することでデータ解析を効率化できるためです。
極論データサイエンティストとデータエンジニアの2人さえ揃えば分析チームを立ち上げるリソースは揃った格好となります。

⑤3人目以降はビジネスに合わせて強化したい領域で採用
ここは会社の事業内容によります。どのような解析分野のエキスパートを採用すべきかを「社内に存在するデータの種類」から考えると良いです。
映像が多ければ映像解析のエキスパート、ECなどA/Bを繰り返すなら統計学のエキスパートとなります。
優先度の高い順の1人ずつエキスパートを揃えていくことがポイントです。
異なる領域に専門性があるため、どのような解析課題にも対応でき、データサイエンティスト同士の学びになるので離職率を下げることができます。

⑥解析課題の多様化によるチームの細分化
分析チームは成熟するにつれて解く課題も多様化していきます。このときに分析領域と各データサイエンティストの専門領域が複雑に入り乱れた状態になるので混乱をきたします。
以下の4つに分けることが一般的です。
①アナリティクスチーム:KPIなど事業指標の開発、モニタリング、アドホックな定量課題への対応をします。
②実験チーム:統計分析を用いた実験を繰り返し、因果関係の発見や実験対象の最適化をします。
③アルゴリズムチーム:機械学習を用いたアルゴリズムやアルゴリズムの内部理解など周辺分野の研究・開発をします。
④データエンジニアリングチーム:データパイプライン、アルゴリズム実装と運用、実験プラットフォーム開発と運用をします。

まとめ
少しはデータ分析チームのイメージがついたでしょうか?個人的には立ち上げ手順の項目とリクルートライフスタイルの例が具体的にデータチームを立ち上げるイメージをつけるのに役に立ったなと思いました。
チームを作ってから運用をどうしていくのかはまた記事を書きたいと思います。

この記事が気に入ったらサポートをしてみませんか?