見出し画像

「メタデータ管理」データマネジメント知識体系(DMBOK)第12章の解説

はじめに

データマネジメントの本丸の一つであるメタデータ管理について説明されている章となる。

メタデータとは「データに関するデータ」であるという説明を読んだときには、さて「データに関するデータ」を管理することは重要なのだろうか?と思うかもしれない。自分もそう思った。

「データに関するデータ」を管理するという事を目的にするのではなく、どのようなものが必要かという観点で考えると、データに関するデータを集約してインターネットにおける検索エンジンがあれば、データ利活用がどれほど進むのかと考えるとワクワクしてくる。

DMBOKの各章の要約・解説

他の章も興味ある人はこちらからどうぞ。

今すぐわかるデータマネジメントの進め方

著者のDMBOKを用いてCDO室を立ち上げデータマネジメントを推進した経験を基にデータマネジメントの進め方をまとめたkindle本を執筆しました。

データマネジメント知識体系(DMBOK)第12章「メタデータ管理」について

メタデータ管理とは

冒頭書いたようにメタデータを「管理」することを目的にすると、それはビジネス的な成果につながるか?となる。

メタデータの「管理」とセットで「検索」について考えなければビジネス成果を出すことは難しい。
九章の「ドキュメントとコンテンツ管理」にも多少書かれているが、メタデータをクローリングして、新しい情報が検索可能になるということまでセットで行う必要がある。

管理と検索を「データ」ではなく「Webサイト」に置き換えて考える。

Googleで検索する事を考えると、検索対象となるサイトの運営者はコンテンツSEOという考え方をもとに、検索クエリを見て検索したい人のニーズに沿ったコンテンツを作っている。

Googleは評価する質の高いサイトのガイドライン的なものを公開いる。
メタデータ管理も取り入れられるものは取り入れ、利用者がデータ利活用に使いたいものを管理していくことが必要となる。

次に検索について考える。

Googleのポリシーはこのように定められている。データについてもこのような考え方で検索できるとよい。

管理されたメタデータを整理して、データ利用者の誰しもがアクセスできて使えるようになるべきであり、ただアクセスできるだけではなくいかに利便性高くアクセスできるかという観点も重要である。

Google の使命は、世界中の情報を整理し、世界中の人がアクセスできて使えるようにすることです。

Googleの概要ページより

ビジネスメタデータとは

主にビジネス側から送出される情報で、データの内容、状態、詳細を表す情報。

  • データセット、テーブルおよびカラムの定義と説明

  • 業務ルール、変換ルール、計算方法および導出方法

  • データモデル

  • データ品質の規則と測定結果

  • データの更新されるスケジュール

  • データの出どころとデータリネージ

  • データのセキュリティレベル

  • データ利用上の注意

テクニカルメタデータとは

主にエンジニア側から送出される情報で、データの技術的詳細、格納するシステム、プロセスに関する情報。

  • 物理データベーステーブルとカラムの名称

  • カラムのプロパティ

  • アクセス権

  • データのCRUD

  • テーブル名、キー、インデックスなどの物理データモデル

  • ETLジョブの詳細

  • ファイルフォーマットのスキーマ定義

  • プログラムとアプリケーションの名称と説明

  • コンテンツ更新サイクルとジョブスケジュールと依存関係

  • リカバリーとバックアップのルール

  • データのアクセス権

オペレーショナルメタデータとは

主に運用側から送出される情報で、データの処理とアクセスの詳細に関する情報。

  • バッチプログラムのジョブ実行ログ

  • データの抽出とその結果などの履歴

  • 運用スケジュールの異常

  • オーディット、バランス、コントロールなどの結果

  • エラーログ

  • レポートとクエリのアクセスパターン

  • バッチとバージョン管理の計画と実行

  • バックアップ、保存、実行日付

  • SLAの要件と規定

  • 容量の増減

  • データの保持ルール

  • 廃棄規定

  • データ共有ルールや合意規定

メタデータリポジトリとは

メタデータが格納されている物理テーブル。全社のメタデータで集約されている。

  • ビジネスメタデータとしてユーザーが追加したデータの内容、状態、詳細

  • テクニカルメタデータとしてソースから物理データベーステーブル名、カラムの名

メタデータポータルとは

メタデータ検索エンジンがメタデータリポジトリに対して、検索クエリを発行して、メタデータの情報を得ることができるユーザー用のポータル。

ハイブリッド型メタデータアーキテクチャ(DMBOKより)

メタデータ管理のゴール

メタデータ管理のゴールとしては、高品質な統合されたメタデータを利用できるように統制されておりこと。

  1. 業務用語とその利用法に関して、組織が理解している

  2. 様々なソースのメタデータを収集し統合されている

  3. メタデータにアクセスするための標準的な方法が提供されている

  4. メタデータの品質とセキュリティを確保されている

メタデータ管理の進め方

メタデータ戦略の策定

メタデータ戦略は組織がメタデータをどのように管理しようとしているのか、現状から将来のあるべき実践活動にどのように移行するかを示す。

メタデータ戦略の策定のゴールは短期的な目標と長期的な目標を定義し、そのステップとステークホルダーとのコミュニケーション計画を定めることである。

メタデータ要件の把握

メタデータの要件とは、メタデータとして管理すべきものは何か、それはどんなレベルかを定めることである。
例えば、テーブルのカラムのメタデータ要件を定めるとすると、以下のようなものが考えられる

  • 物理名

  • 論理名

  • 更新頻度

  • バージョン履歴

  • リネージ

  • メンテナンスルール

  • セキュリティ区分

  • アクセス権限

  • 管理者

メタデータアーキテクチャの定義

メタデータアーキテクチャとは、メタデータ管理システムがソースとなる業務システムに対してメタデータをどのように抽出するのか、抽出したメタデータをどのように利用者に見せるのかといった設計を定義することである。

設計の最初のステップとしては、主要エンティティ間の属性と関係性を記述するメタモデルを作成することである。

メタデータリポジトリ・メタモデルの例 DMBOKより

メタデータの作成と維持

メタデータは様々なプロセスを通じて作成され、組織内の多くの場所に格納される。このように複雑な状態のメタデータを高い品質で管理するためには、メタデータを製品のように管理する必要がある。

具体的にはメタデータはどうあるべきか標準を定める。標準を担保する責任者を明確にする。利用者からのフィードバックの仕組みを作り、改善するフローを作ることである。

メタデータのクエリ、レポート、分析

メタデータはデータ利活用のよりどころになる。メタデータはレポートと分析、ビジネス上の意思決定、ビジネス用語のために利用される。

利用者がメタデータを活用するためにはフロントエンドアプリケーション(メタデータポータル)が必須となる。

メタデータ管理の成果物

ツールを導入するだけでなくビジネス的な価値を出すために継続して運用を続けるというところが、ポイントである。
 
・現状調査
・現状評価、アセスメント
・テーブル定義書
・データカタログ
・データカタログへの運用フロー
・リネージ辞書
・教育・啓蒙
・利用者への支援

メタデータの解説動画

AI事務員宮西さんでおなじみの宮西さんと松田さんの解説動画となります。
メタデータについて解説しているので、動画で学びたい人は是非ご覧ください。

おわりに

自分の知識をまとめるためと今後誰かがデータマネジメントをやってみたいと思った時のきっかけとなるためにnoteを書くことにしました。

モチベーションのために役にたったという人はぜひ、フォロー&スキをお願いします。

ツイッターでもデータマネジメントに係る情報をつぶやいてますので、よろしくお願いします。

データマネジメントを学ぶ人が抑えておきたい本

今すぐわかるデータマネジメントの進め方

著者のDMBOKを用いてCDO室を立ち上げデータマネジメントを推進した経験を基にデータマネジメントの進め方をまとめたkindle本を執筆しました。

データ組織立ち上げ編 AI事務員宮西さん

著者のデータ組織の立ち上げ経験をマンガ+コメントでまとめてみました。立ち上げ編は組織を立ち上げてやることが決まるまでのストーリーです。
無料公開のため0円となります。
データ組織の立ち上げに関係する方は是非読んでみてください。

DXを成功に導くデータマネジメント

DXを成し遂げるために必要なデータをどうマネジメントしていけばよいかが書かれている。
データ環境より、セキュリティの観点であったり、プライバシーの観点であったりといった非技術者向けの内容が多く書かれている。
データマネージメントに興味を持った人はまずは読んでみるとデータマネジメントでなすべき概要が理解できる。


実践的データ基盤への処方箋

データ利活用を行うために必要なデータ基盤の考え方と、利活用するためにはデータをどのようにマネジメントしていけば良いかを具体的な例を用いて説明されている。
技術が中心になるので現在データ技術に係る人がデータマネージメントに興味を持った時には、まず手に取ることをおすすめする。


個人データ戦略活用 ステップでわかる改正個人情報保護法実務ガイドブック

個人情報保護法を順守するための基本的な考え方が実務ベースで書かれている。2022年4月に施工される改正個人情報保護法で新たに追加される概念も同様に記載されている。
政府の出しているガイドラインよりも俯瞰的に読めるためデータプライバシーにかかわる人、データを使ったビジネスを推進する人は読んでおくとスムーズに業務が進められる。


データマネジメント知識体系ガイド(DMBOK)

自分も要約・解説記事を書いているDMBOK。データマネジメントに興味を持った人がまず手に取ると挫折することは間違いないほどのボリュームがある。
読めば読むほど味が出てくるので、データマネジメントを進めようとしている人は各家庭に1冊は是非買っておきたい。


データマネジメントが30分でわかる本

著者もDMBOKを読むためには非常にボリュームが多く読み解くには苦労するので、かみ砕いた解説書をまとめたと書いてある通り、DMBOKを独自解釈してわかりやすく書かれている。
DMBOKを技術者目線で読み解いた内容になっているので、実践的データ基盤への処方箋と同様データ技術に係る人におすすめする。


この記事が気に入ったらサポートをしてみませんか?