データカタログとは【データ用語解説】
データ用語解説の趣旨
データに係る仕事をしていて、まだまだデータ利活用に関する用語を誤解していることが多いなと感じています。
という事で、データ利活用に係るデータサイエンティスト、データエンジニア、ビジネス部門、業務部門の人たちが押さえておきたい用語を解説していきます。
今回は「データカタログ」について解説します。
データカタログはメタデータを管理するソリューションとして用いられます。
データカタログはメタデータを整備するソリューションです。
DMBOK第12章にはメタデータについて書かれているので気になる方はこちらを。
データマネジメントについての情報
データ用語解説
データ用語の解説を書いてます。
今すぐわかるデータマネジメントの進め方
著者のDMBOKを用いてCDO室を立ち上げデータマネジメントを推進した経験を基にデータマネジメントの進め方をまとめたkindle本を執筆しました。
データカタログとは
データカタログとはメタデータをビジネスで使えるようにする文書の総称もしくは該当ツールのことを表すことが多い。
DMBOK解説のメタデータ管理の章でメタデータは「管理」のみならず「検索」について使いやすいものでなければならないと書いた通り、ツールとしてのデータカタログの主な機能はメタデータを管理する機能と、管理されているメタデータを利用者の意図に沿って検索できる機能の2つが搭載される。
ここからはデータカタログの作成、管理、利用についての進め方を記載する。
メタデータを集める
メタデータを集めるのは、無作為に集めるとビジネスに役に立たないメタデータを集めてしまうこともある。
役に立たないメタデータを集めることは何か問題が起こるわけではないが、収集するリソースや管理するリソースがかかるため、メタデータの必要性を感じ集めることになったときは、計画を策定してから実施する必要がある。
ベースとなるテーブル定義書などの資料が無いか調査する
どのデータのメタデータを集めるのか定める
集めるべきメタデータは何かを定める
メタデータは関係するどの部署が保持しているのかを調査する
メタデータを認識している相手とのコミュニケーションを確立する
メタデータをデータカタログに整備する
集めたメタデータは使えるように管理しなければならない。
使えるように管理する方法はメタデータをデータカタログに整備するという事が管理するということの実現手段となる。
データを利用者がデータカタログを使うシーンを調査する
データカタログとするソリューションを決める
データカタログにどのメタデータをどう入れるのか設計する
タグ、用語を統一して検索性を上げるように設計する
データカタログにメタデータを格納する
データカタログを活かす
最後は整備したデータカタログを活かす。
よく見るケースとしては、データカタログを整備したものの利用者の業務の中で手に取りづらい場所に配置されており、利用されていないケース。
データカタログの中の検索性が悪すぎて、結局データスチュワードに問い合わせるケースがある。
一番難しいのは、正しいデータカタログを作ることではなく、データカタログを使ってビジネスに活かすことであると理解して、取り組みを進める。
今一度、データカタログを整備するきっかけとなった課題を思い出して、その課題を解決できているのかを念頭に置き、利用者に向けて教育・啓蒙をしていく必要がある。
データカタログツールの紹介
Google Data Catalog(グーグルデータカタログ)
BigQueryでおなじみのGoogleさんのデータカタログツール。
マルチクラウドではなく、BigQueryに集約してデータを管理しているときはDataCatalogがおススメできる。
BigQueryを使っているので、特に何もせずにサービスをアクティベートすれば使える。
Quollio(クオリオ)
日本初のデータカタログツール。
日本初のベンチャー企業で、データカタログツールを専門に作っている。
自分が書くのもなんだが、主なプロダクトがメタデータ管理というマニアックな領域で心配になってくるが応援したい企業。
Alation(アレイション)
世界的なデータカタログの第一人者企業であり、今後のアップデートにも期待できる。
データカタログツール専門のSaas企業で、いろいろなデータソースからシステムメタデータを自動的に収集して管理できる。
【ゆっくり解説】メタデータ管理
メタデータ管理についてはゆっくり解説動画を作ったのでこちらも紹介しておきます。
DMBOK解説を初心者向けにシナリオを書いて作成しました。
おわりに
自分の知識をまとめるためと今後誰かがデータマネジメントをやってみたいと思った時のきっかけとなるためにnoteを書くことにしました。
モチベーションのために役にたったという人はぜひ、フォロー&スキをお願いします。
ツイッターでもデータマネジメントに係る情報をつぶやいてますので、よろしくお願いします。
データマネジメントを学ぶ人が抑えておきたい本
今すぐわかるデータマネジメントの進め方
著者のDMBOKを用いてCDO室を立ち上げデータマネジメントを推進した経験を基にデータマネジメントの進め方をまとめたkindle本を執筆しました。
データ組織立ち上げ編 AI事務員宮西さん
著者のデータ組織の立ち上げ経験をマンガ+コメントでまとめてみました。立ち上げ編は組織を立ち上げてやることが決まるまでのストーリーです。
無料公開のため0円となります。
データ組織の立ち上げに関係する方は是非読んでみてください。
DXを成功に導くデータマネジメント
DXを成し遂げるために必要なデータをどうマネジメントしていけばよいかが書かれている。
データ環境より、セキュリティの観点であったり、プライバシーの観点であったりといった非技術者向けの内容が多く書かれている。
データマネージメントに興味を持った人はまずは読んでみるとデータマネジメントでなすべき概要が理解できる。
実践的データ基盤への処方箋
データ利活用を行うために必要なデータ基盤の考え方と、利活用するためにはデータをどのようにマネジメントしていけば良いかを具体的な例を用いて説明されている。
技術が中心になるので現在データ技術に係る人がデータマネージメントに興味を持った時には、まず手に取ることをおすすめする。
個人データ戦略活用 ステップでわかる改正個人情報保護法実務ガイドブック
個人情報保護法を順守するための基本的な考え方が実務ベースで書かれている。2022年4月に施工される改正個人情報保護法で新たに追加される概念も同様に記載されている。
政府の出しているガイドラインよりも俯瞰的に読めるためデータプライバシーにかかわる人、データを使ったビジネスを推進する人は読んでおくとスムーズに業務が進められる。
データマネジメント知識体系ガイド(DMBOK)
自分も要約・解説記事を書いているDMBOK。データマネジメントに興味を持った人がまず手に取ると挫折することは間違いないほどのボリュームがある。
読めば読むほど味が出てくるので、データマネジメントを進めようとしている人は各家庭に1冊は是非買っておきたい。
データマネジメントが30分でわかる本
著者もDMBOKを読むためには非常にボリュームが多く読み解くには苦労するので、かみ砕いた解説書をまとめたと書いてある通り、DMBOKを独自解釈してわかりやすく書かれている。
DMBOKを技術者目線で読み解いた内容になっているので、実践的データ基盤への処方箋と同様データ技術に係る人におすすめする。
この記事が気に入ったらサポートをしてみませんか?