データメッシュ、データファブリック

2024年1月28日 14:04

データメッシュ

概要説明

データの分散管理をしようという考え方

これまでの主流の考え方
データレイク、データウェアハウス
TDやSnowflakeといったデータウェアハウスを利用して社内のデータを一か所にまとめて管理する。

課題
大企業だとすでに部署・店舗ごとに異なるデータ管理をしているなどで一か所にまとめるのが現実的ではない。

解決策
今まで通り部署・店舗ごとにデータ管理でOK
ただしビッグデータ分析などで部署・店舗横断でデータ活用していく必要がある。そのために全体ルールを設計し、各ドメイン責任者がそのルールに従ってデータ管理をする必要がある。
＝データメッシュ

例）

セールスで使用されるSalesforce
経理で使用されるfreee会計
マーケティングで使用されるMAツールのMarketo

など各部署で使われているデータを各部署が責任を持って管理
全体のデータ管理部署では他部署からもアクセスしやすい状態を作る

データメッシュの懸念点

各部署にデータ管理できる人材が必要
部署ごとのデータ以外が少ないことが前提
- 横断やそれ以外のデータが多いと結局データレイクあった方がいい、横断部署で責任もって管理しないといけないとなるため
完璧なデータガバナンスは難しい
- 各部署に管理任せるため品質などのブレは発生する
- ルール細かすぎると守られなくなってしまう

上記のようにデータマッシュ実現するうえで各部署のデータが独自ルールで好き勝手に作られないようにするのに重要なのがデータファブリックという考え。 ※好き勝手に作られた無法地帯のデータのことをデータスワンプという

データファブリック

概要説明

分散されたデータの管理と統合のための総合的なプラットフォームやアーキテクチャを指す用語

データファブリックに求められるもの

信頼できるデータの提供
- 全体ルールの策定
- （ルールの適応状態の監視）←各ドメインが責任者
データの提供窓口の統一
- セキュリティとアクセスコントロール
- データカタログなど各データの使用に必要な情報の整備
ビジネス要件に合わせたデータの整形・統合＝セマンティックレイヤ

セマンティックレイヤ

ビジネス指標の定義を一括管理するレイヤ
https://dev.classmethod.jp/articles/developersio-2023-semantic-layer-difference-looker-and-dbt/
DWH上でデータマート等で指標を管理することもできると思うが、Semantic Layerを使うメリットとは？
ビジネス指標の定義のためにドメインを横断してデータ統合などする必要あるため

データファブリック製品例

Dataplex
Googleの製品内限定だが部署ごとに違うCloudやBigqueryなど使っていた場合に統合管理できる

参考サイト

＋ChatGPT

この記事が気に入ったらサポートをしてみませんか？