データ人材ってなんだろう
データ駆動社会とかデータは21世紀の石油と言われていますが、そこにはどんな人材が必要なのだろうか。
これまでの国内のデータ人材のモデル
IT人材については、長い間、IPAが情報処理技術者試験やITスキルスタンダードで支えてきました。これをデータという視点で見てみましょう。
まず、情報技術者試験を見てみると2020年現在の試験区分は13区分に分かれています。
もちろんすべての試験区分にデータは関連するのですが、データに関する専門的な区分として「データベーススペシャリスト」が設定されています。業務は「データ資源及びデータベースを企画・要件定義・開発・運用・保守する業務に従事」であり、役割は「(1)データ管理者として、情報システム全体のデータ資源を管理する。」とされるなど、情報システムのデータにフォーカスしています。
また、ITスキル標準(ITSS)を見てみると、データに関連した区分は職種:ITスペシャリストの専門分野:データベースがあります。一方、情報システムユーザースキル標準(UISS)では、人材像にデータ関連人材はありません。
最近の技術変化に対応して、ITSS+では、データサイエンス領域が新たに定義されています。この中では「企業等の業務において大量データを分析し、 その分析結果を活用するための一連のタスクとそのために習得しておくべきスキル」と領域を定義しています。
先進的な英国を見てみよう
ITSSを策定したときにも参考にした英国を中心としたITスキル体系であるSFIA7を見てみましょう。SFIAではスキルを定義しているだけで人材像は定義していないのですが、スキルレベルが職種に近いです。データに関するスキルを見ると以下のものがあります。
Information governance IRMG
Information security SCTY
Information assurance INAS
Analytics INAN
Data visualisation VISL
Information content publishing ICPM
Knowledge management KNOW
Data management DATM
Data modelling and design DTAN
Database design DBDS
Database administration DBAD
Storage management STMG
これらも参考に、英国政府GDSではDDaT(Digital, Data and Technology Profession Capability Framework)という人材フレームワークを持っています。この中でDataに関する以下の4つの職種を定義しています。
データ・アーキテクト
事業目的に合わせたデータデザインを通じて、組織におけるデータ利活用のビジョンを作成する。データモデルやメタデータ、データディクショナリを整備するとともにガイドライン化する。その一環で、データ標準化にも取り組む。また、システム構築チームに対してアドバイスする。
データ・アナリスト
事業へのインサイトを提供するために、データを収集、体系化し分析する。各種ツールや技術を導入しデータ分析やビジュアライズをする。システムにおけるデータを定義し、収集や移行も行う。データ分析用データを管理しクレンジングや抽象化、統合を行う。異なるデータセット間のリンクを行う。利用者にとって適切なフォーマットを提供する。
データ・エンジニア
データに関するシステム、サービスを開発する。データを使ったシステムやサービスとして最高のものを提供する。そのために、マニュアルのデータフローをスケーラブルで拡張が容易なシステムにするとともに、既存のデータフローを活用する方法を考え、データが効率的に流れるシステムを構築する。また、データ関連システムの性能を最適化する。関連したドキュメンテーションや再利用可能なBIレポートの作成も行う。
データ・サイエンティスト
データを駆使し複雑な事業課題を明確化する。数理モデルなどを組み合わせてデータを分析する。データをAPIなどなどから取得し、様々な最新手法を使ったり比較をし、データ・アナリストを支援するとともに、経営課題を明確化する。そのために必要なプログラミングも行う。
ところで米国ではどうだろう
米国の職業データベースであるo*netで「Data」を検索すると様々な職種が出てきます。特にデータに特化した職種は、以下の職種があります。
Data Scientists
Data Warehousing Specialists
Data Entry Keyers
Database Architects
Statisticians
Business Intelligence Analysts
医療や地理空間など分野に依存したデータ職種も多く定義されています。
また、米国政府は現在、Federal Data Strategyを推進していて、その中でデータ人材の整理を行っています。2020年6月にImproving Agency Data Skills Playbook を公表し、これをベースに11月30日にCurated Data Skills Catalogを整備しました。ここでは、データのライフサイクルを各プロセスにわけて必要スキルなどを整理しています。
データマネジメントの専門団体はどう考えているのか
データのマネジメントを推進する国際団体はDAMA(Data Management Association)があります。データマネジメント体系であるDMBOK2(DATA MANAGEMENT BODY OF KNOWLEDGE)を整備するとともに専門家認定であるCDMP(Certified Data Management Professionals)を推進しています。このDMBOK2では、データに関する統括責任者であるCDOとともに、データ資産自体の管理人であるデータスチュワード、データ資産の技術的管理者であるデータ管理者(データ・マネジメント・プロフェッショナル)を定義しています。
それで結局どんな人材モデルが必要なのだろうか
英国のモデルが実践的でわかりやすいですが、国内で考える場合、4職種は3種類に集約できるのではないでしょうか。英国の人材モデルでデータ・アナリストはデータ設計者、データ・エンジニアは開発者です。データ・アナリストをデータ・エンジニアの一部に統合してしまう事が考えられます。
そうすると、「データ・アーキテクト」、「データ・エンジニア」、「データ・サイエンティスト」に整理できます。
ちなみに、マッキンゼーの2020年の人材レポートでは、7つの重要人材に、データマネジメント人材が入っています。これは、「データ・アーキテクト」、「データ・エンジニア」をあわせたような人材ですね。
ところで、データ人材って国内にいるのかな。
このように3種に人材を整理したとして、国内にデータ人材はいるのだろうか。今までの国内の人材育成を見ればわかるように、データ・エンジニア(開発)とデータ・サイエンティストはいますが、データ・アーキテクトやデータ・エンジニア(デザイン)はほとんどいません。
もう少し具体的に日本のデータ人材を表すと
・御用聞き型データ設計者
顧客にヒアリングして表にまとめる人
・既存パッケージのモディファイ設計者
外資等のパッケージのDBインプリをする人
・実装データベース技術者
データベース開発や実装、チューニングをする人
・データクレンジングで苦しむデータ・サイエンティスト
データを分析したり可視化する人
の4種類なのではないでしょうか。
パッケージソフトを開発するときは、データを抽象化してモデル化していくのでデータ設計力が求められますが、日本のような顧客の希望通りに画面や帳票を個々に設計しているとなかなかデータ設計力が鍛えられません。日本ではデータ設計ツールを使わず、表計算ツールであるエクセルでデータを設計する人が多いですが、これでは成長しようがありません。
その結果、ひどいエンジニアが量産され、大手ベンダが設計したものでもとんでもないデータ設計もかなりあります。ITコンサルになるともっとひどく、データ設計の基本も知らないのに専門家のふりをするコンサルタントも多いです。海外のデータ専門のITコンサルのイメージで付き合うとひどい目に合うことになります。
ベンダもひどい状況ですが、ユーザにも問題があります。データ設計でモデリングを使うと、ユーザ側でそれを読める人がいません。だからベンダも表形式のデータ設計書で説明するという悪循環に陥っています。
行政分野でいうと、海外の政府では局長レベルでも普通にクラス図を見ながら話します。それに比べて日本の行政でクラス図が読める人は何人いるのでしょうか。
なんで、こんなにデータ人材に苦労するんだろうか
1つには、大学にデータ人材育成のプログラムがないことがあります。データベースの性能向上などは論文が書けるのですが、データ設計は実務的で、論文が書けないことから先生がいないとのことです。たまに、データを専門にしている先生がいても、大手ベンダのOB等で教えている内容が古い場合が多いです。
また、たとえ大学でデータ設計をきちんと学んだとしても、企業に入るとエクセルでデータ設計する文化に投げ込まれ、きちんとしたモデリングを活かす環境で実力を磨いていくこともできません。
ではどうすればよいのでしょうか
まずは基礎教育が必要です。トレーニングコースの整備を進める必要がありますが、それがあっても教えられる人も少ないです。そこで、基礎教育は最低限用意して、足りない部分は海外のMOOCの活用することが考えられます。MOOC大手のCOUSERAではデータ関連のコースが2000以上も提供されています。これらをうまく使っていく必要があります。
一方で、単に人材育成するだけでなくデータ環境を整備することが急務です。日本は人材のバランスが悪いだけではなく、データ環境が悪いために、エンジニアがその実力を活かしきっていません。例えばデータ・サイエンティストが引く手あまたで、多くの人材育成コースが提供されていますが、そこでデータサイエンスを学んだ人も、データ環境が悪いために、ほとんどの人がデータの探索、クレンジング、マッシュアップに稼働の多くが取られています。8割程度の業務時間がデータサイエンスの前処理に取られているのではないでしょうか。育成することも重要ですが、データ環境を整備することで、データ・サイエンティストが本来の仕事に専念できる環境を整備することが必要になります。
このようなデータを扱いやすい環境は、データ・サイエンティストに便利なだけでなく、データ・エンジニアやビジネスクリエーターの活用しやすい環境になります。処理しやすい標準的なデータ、適切な利用ルール、豊富で品質の高いデータ、これらを支える市場やツールなどが必要となってきます。
で、結論は
こうなったらコースや環境を作るしかないというのが結論で、国内に不足するデータアーキテクトやエンジニア向けのコースの作成中です。また、データ人材が能力を発揮しやすい環境作りにも取り組んでいます。また、最近はやっとチームらしくなってきました。「ピカピカの人材を作り出すお手伝いをする」それが2021年の目標です。データ戦略もこれからが本番です。一緒に取り組みを進めていく仲間を大募集中です!!
この記事が気に入ったらサポートをしてみませんか?