「データ統合と相互運用性」データマネジメント知識体系(DMBOK)第8章の解説
はじめに
データはアプリケーションだったり、事務だったりとデータが生まれるのは多種多様なケースがある。生まれたときは形式だったり、場所であったり、フォーマットが統一されておらず、使い物になるような状態ではない。ビジネスに活用できるように一か所にデータを集約し、形式を統一していく必要がある。データ統一をしないままビジネスに活用しようとすると、末端のクライアント側で業務の数だけデータを調える作業が発生してしまう。
どういうことかというと、こういう業務をやっている。
AというシステムでデータをCSVでエクスポートして、Bというシステムからも同様にCSVでエクスポートして、Excelで2つのCSVを取り込んで、重複している項目を削除してから、グラフ化して分析する。こういう業務が隣の部署で同じことをやっていたりとかなり冗長になっている。
このように毎回二つのシステムからCSVを取り込むのであれば、あらかじめDWH上に処理済みのデータを統合しておけば本業の分析をやる時間が取れるということ。
DMBOKの各章の要約・解説
他の章も興味ある人はこちらからどうぞ。
今すぐわかるデータマネジメントの進め方
著者のDMBOKを用いてCDO室を立ち上げデータマネジメントを推進した経験を基にデータマネジメントの進め方をまとめたkindle本を執筆しました。
データマネジメント知識体系(DMBOK)第8章「データ統合と相互運用性」について
データ統合と相互運用性とは
データ統合と相互運用性とは、求められる時間とフォーマットでデータを提供することである。
そのためにはデータをデータハブに集約する。集約する際には、全体最適化と個別最適化のバランスを取り、サポートと保守の観点も加味してデータを集約する。
抽出、変換、取込(ETL)と抽出、取込、変換(ELT)
データ統合の基本は、抽出(Extract)・変換(Transform)・取込(Load)のプロセスが基本である。
略してETLと呼ばれるもので、ETLを行うためのツールもありTalendとかinformaticaとかtoroccoとかが有名。最初誤植かと思ったが、順番が変わってETLとなることもあるようだ。
「データ統合と相互運用性」のゴール
アプリケーションやデータベース間におけるデータの移動と統合が管理されている。
法令を遵守しながら、必要とするフォーマットと時間枠でデータが安全に提供されている
共有のモデルとインターフェースを開発され、ソリューションを管理するコストと複雑さが削減されている。
重要なイベントを特定し、アラートとアクションを自動的に起動されるようになっている
ビジネスインテリジェンス、アナリティクス、マスターデータ管理、業務効率化の取り組みを支援している
「データ統合と相互運用性」の進め方
計画と分析
データ要件を決める
まずはデータ統合とライフサイクルの要件を決める必要がある。要件を決めるのは実際にデータを使う業務アナリスト、データスチュワード、データアーキテクトによって定義される。
彼らはデータを特定の場所で、特定のフォーマットで、統合されたデータを取得したいという欲求を持っている。
要件を決める際にメタデータが作成されたり、突き止められたりするため、ライフサイクル全体を通して管理する必要がある。
データ探索
必要なデータがどこにあるのか、どのように生み出されるのかを探索する必要がある。探索は技術的な検索と有識者へのインタビュー員によって行われる。探索されたデータはメタデータリポジトリで管理する。
探索したデータを起点に、そのデータはどのように生成されたのかというデータリネージを明らかにする。組織のどこからどこに移動し、どこで変更されているのか、どのようなデータを利用して意思決定しているのかということが明らかにするべきこと。
この工程を挟むことで、既存のデータフローに改善の余地があることが明らかになり組織のデータ利活用能力の向上に役に立つ。
データのプロファイリング
必要なデータを集めた後、実際のデータを見て想定していたものなのかどうかをプロファイリングする。実際にデータを見てみると、想定した内容とは異なったものであることが多い。正しく状況を把握して、手を打つ必要がある。想定外のケースの事例は以下に示す。
・定義された型と違うデータが入っている
・ないはずのNULL、空白が入っている
・制御文字が入っている
業務ルールの収集
業務ルールを明らかにして、業務を行うことでデータがどのように変化しているのかを把握する。
業務用語の定義、データ間の関係性の把握、制約や実行条件を認識してデータを制御する必要がある。
データ統合とソリューションの設計
データ連携モデルを決める
ハブ&スポーク、ポイント・ツー・ポイント、パブリッシュ・サブスクライブの中から要件を満たすモデルを選択する。
データソースのターゲットへのマッピング
データの統合元と統合先のフォーマットを変換するためのルールを決める。
ルールを満たすためにはどんな演算が必要なのかを明確にする。
データオーケストレーションの設計
データフローを設計しドキュメント化する。データ統合の開始から終了までのデータパターンを記し、そこには変換やトランザクションを完了するための中間ステップも含む。
データ統合ソリューションの開発
データサービスの開発、データフローの開発
指定された通りにデータソースにアクセスし、変換し、配信するサービスを開発する。
これらの開発には標準的なベンダー製品を利用することで運用コストを削減することができる。
開発したデータサービスをスケジューラに設定してバッチ処理で連携する。
データ移行方法の開発
新しいアプリケーションが導入されると既存のデータを移動させる必要がある。旧来のアプリケーションのデータを新たなアプリケーションに合わせてフォーマットを変換して移行する。
しばしばデータ移行は過小評価されがちになってしまう。「移動すればいいだけ」と指示されているが実装する人はデータの中を理解していないケースが多く、移動しただけではアプリケーションが正常に動作しないことがある。
「データ統合と相互運用性」の成果物
成果物はデータアクセスに関する仕様とETLもしくはELTのプロセスが実装されたシステムである。
DIIアーキテクチャ
データ交換仕様
データアクセスの合意
データサービス
複合イベント処理の閾値とアラート
※(DII:Data Integration and Interoperability)データ統合と相互運用性
データ統合と相互運用性の解説動画
AI事務員宮西さんでおなじみの宮西さんと松田さんの解説動画となります。
データ統合と相互運用性について解説しているので、動画で学びたい人は是非ご覧ください。
おわりに
自分の知識をまとめるためと今後誰かがデータマネジメントをやってみたいと思った時のきっかけとなるためにnoteを書くことにしました。
モチベーションのために役にたったという人はぜひ、フォロー&スキをお願いします。
ツイッターでもデータマネジメントに係る情報をつぶやいてますので、よろしくお願いします。
データマネジメントを学ぶ人が抑えておきたい本
今すぐわかるデータマネジメントの進め方
著者のDMBOKを用いてCDO室を立ち上げデータマネジメントを推進した経験を基にデータマネジメントの進め方をまとめたkindle本を執筆しました。
データ組織立ち上げ編 AI事務員宮西さん
著者のデータ組織の立ち上げ経験をマンガ+コメントでまとめてみました。立ち上げ編は組織を立ち上げてやることが決まるまでのストーリーです。
無料公開のため0円となります。
データ組織の立ち上げに関係する方は是非読んでみてください。
DXを成功に導くデータマネジメント
DXを成し遂げるために必要なデータをどうマネジメントしていけばよいかが書かれている。
データ環境より、セキュリティの観点であったり、プライバシーの観点であったりといった非技術者向けの内容が多く書かれている。
データマネージメントに興味を持った人はまずは読んでみるとデータマネジメントでなすべき概要が理解できる。
実践的データ基盤への処方箋
データ利活用を行うために必要なデータ基盤の考え方と、利活用するためにはデータをどのようにマネジメントしていけば良いかを具体的な例を用いて説明されている。
技術が中心になるので現在データ技術に係る人がデータマネージメントに興味を持った時には、まず手に取ることをおすすめする。
個人データ戦略活用 ステップでわかる改正個人情報保護法実務ガイドブック
個人情報保護法を順守するための基本的な考え方が実務ベースで書かれている。2022年4月に施工される改正個人情報保護法で新たに追加される概念も同様に記載されている。
政府の出しているガイドラインよりも俯瞰的に読めるためデータプライバシーにかかわる人、データを使ったビジネスを推進する人は読んでおくとスムーズに業務が進められる。
データマネジメント知識体系ガイド(DMBOK)
自分も要約・解説記事を書いているDMBOK。データマネジメントに興味を持った人がまず手に取ると挫折することは間違いないほどのボリュームがある。
読めば読むほど味が出てくるので、データマネジメントを進めようとしている人は各家庭に1冊は是非買っておきたい。
データマネジメントが30分でわかる本
著者もDMBOKを読むためには非常にボリュームが多く読み解くには苦労するので、かみ砕いた解説書をまとめたと書いてある通り、DMBOKを独自解釈してわかりやすく書かれている。
DMBOKを技術者目線で読み解いた内容になっているので、実践的データ基盤への処方箋と同様データ技術に係る人におすすめする。
この記事が気に入ったらサポートをしてみませんか?