理想的なメタデータ管理ツールはどんなものか

まずはどうあるのがいいかを考える

メタデータを記録して管理するためのツールはどうあれば使いやすく、更新し続けられるのかを考えてみたい。

実務ではデータやシステムに対応している必要はなく利用しているデータやツールを具体的に想定して、その上で何がどこまでできるかの検討をすることになるが、今回は前提は一切おかずに思うままに欲しいことを書いていく。

理想的なメタデータ管理ツールにあって欲しい機能

”全ての”メタデータが含まれ、相互に行き来ができる

メタデータはデータベースに入っているデータ(主にテーブルとカラムを指すことが多いようだ)だけが対象なのではない。

  • データベースの外部で使われているデータ(例:スプレッドシート・スライド・BIツール・販管ツール・人材管理ツールなど)

  • 用語集やデータの使い方についてのドキュメント

  • 非デジタルデータ(例:書籍・パンフレット)

  • 外部にあるデータ(例:政府が発行する統計データ・専門機関による調査結果)

  • 人・部署・会社などの情報(例:業界紙・プロファリング)

このようデータについてのメタデータも一括で管理したい。

データ間の関係がわかる(リネージ)

データベース以外のデータのメタデータとも相互に行き来ができるようになって欲しい。

相互とは、例えばデータとダッシュボードならば「このデータが使われているダッシュボードはどれか」と「このダッシュボードで使われているデータはどこにあるか」の両方がわかるということだ。

これらの間のリンクが常に最新になるようにしてほしい。図示されていればなお良い。

関連項目の自動取得

「このデータに関連する用語は何か」と「この用語に関連するデータは何か」、用語とダッシュボードなら「この項目についてわかるダッシュボードは何か」と「このダッシュボードでわかる項目は何か」といったことが考えられる。

新しい項目が追加される度に関連する項目を洗い出し、それぞれのページを更新して欲しい。

各個人に合わせた表示ができる

同じデータについてのメタデータでも求める内容は人それぞれだ。エンジニアは作られ方の詳細なクエリが欲しいかもしれないし、ビジネスサイドは「このカラムは何か」が一言で説明されていれば十分なこともある。また、使うデータも経営者と営業とマーケでは違う。

テーブルやカラムの一覧を作ることは簡単にできる。ところがよく使うものはほんの一部でしかない。でも全部同列に書くから必要な時に探すのに手間取る。メタデータの内容を充実させても、全ての人に一律で同じように表示させていると全ての人が使いづらくなってしまう。

なので、表示するメタデータの内容や項目を、重要性や詳細の度合いによって個々人が設定できると使い勝手が良くなるはずだ。

検索の方法がいろいろある

完全一致、部分一致、正規表現、タグ、関連事項を含むかどうかなど検索のオプションを用意して欲しい。

特に「同じ意味なのに言葉が違う」ことで検索に引っ掛からず、無いものだと思ってまた新しくページを作ってしまうようなことを無くしたい。

データの履歴がわかる

そのデータはいつ誰がどのように追加・変更したのか履歴が追えるようにして欲しい。ここで言っているのはメタデータのドキュメントのこと(それも大事だけど、ドキュメントの履歴は残っている前提)ではなく、データそのものの履歴。例えば以下のようなこと。

  • 追加された

  • 定義が変わった

  • 値が増えた(例:今まで1,2,3だったのが4,5も増えた)

  • 削除された

  • 責任者が変わった

定義が変わることは仕方が無いとはいえ、その記録がどこにも残っておらず1年2年経って関係者もいなくなったり忘れてしまって「このあたりの値がおかしいのだけれども何だっけ?」が繰り返されることが多すぎる。

異常の原因が記録される

変更の履歴と同じで、何が起きているかの原因も記録されてほしい。

  • この期間では〇〇という理由によりデータが欠損または重複している

  • この期間はメディア掲載による流入の増加が起きておりエラーではない

  • この日を境にトレンドが変わるのはデータの定義が変更されたからである(または、データが修正された、追加されたなど)

もちろんこの理由も自動でひろってくれるとよい。

権限管理

編集や閲覧の権限管理機能。メタデータ管理ツールで独自に設定するのではなく、データベースやBIの権限をそのまま引き継いでくれるとありがたい。

インポート

既存のドキュメントを一括でインポートする機能。特にツールの移行時に有用。

エクスポート

そのうちツールは変わるがエクスポートできないと移行が大変。

重複防止アラート

同じような内容がすでにある場合には、項目名が違っても書いている途中に検知して教えて欲しい。

あるいは生成しているコードを記録してからでも内容を解析してチェックしてくれると早めの対策ができる。

類似の記述をマージ

散らばっている同じような内容をマージして1つの項目にまとめる。さらに各項目へのリンクの文言を修正し、新しい項目名に統合されたことまで修正して欲しい。

書いている途中で「同じような内容の項目があるよ」のアラートが鳴ったら、途中まで書いた部分も含めてマージしてくれないかな。

テンプレート機能

テンプレートが変わったら、そのテンプレートを使っている項目に適用されるようにする仕組み。最初にテンプレートを作っても使う人がアレンジして、いつのまにかにまったく違う形式のページばかりになってしまうのを避けるには変わることが前提の仕組みが必要だ。

実現すると項目内での表示の順番が同じになり、何が書かれていないのかがすぐわかるようになる。多分検索もしやすくなる。

外部とのメタデータ共有

政府が発行する統計データなんてまさにそうだが、共有メタデータとして整備されているものを各自が取り込むことができ、独自のメタデータとの連携や文脈の追加ができるとオープンデータの活用ももっと捗るのでは。

コミュニケーションツールからの概要抽出

リンクだけ残ってもやり取りが長いと読むのも大変なので、やりとりをした内容の概要をコミュニケーションツールから拾ってメタデータとして記録して欲しい。

  • 最終的に合意または確認されたデータの定義

  • 合意に携わった人、議論に参加していた人は誰か

  • 議論の途中で明らかになった特殊事情

例えば「〇〇というカラムの定義は何か」という質問の答えが自動的にメタデータの管理ツールにも記録されるようになっていたらとても記録が捗るだろう。

メタデータ管理ツール単体は存在しなくなるのかも

こう考えてみると、「メタデータ管理ツール」に求められるのは以下の3つになるだろうか。

  • 自動化

  • ユーザビリティ

  • 外部システムやツールとの連携

そうなると単体で存在するよりもいずれデータの統合管理ツールの一機能となっていくのではないか、なんて想像も膨らむが一体いつになることか。

この記事が気に入ったらサポートをしてみませんか?