データメッシュ、データファブリック


データメッシュ

概要説明

データの分散管理をしようという考え方

これまでの主流の考え方
データレイク、データウェアハウス
TDやSnowflakeといったデータウェアハウスを利用して社内のデータを一か所にまとめて管理する。

課題
大企業だとすでに部署・店舗ごとに異なるデータ管理をしているなどで一か所にまとめるのが現実的ではない。

解決策
今まで通り部署・店舗ごとにデータ管理でOK
ただしビッグデータ分析などで部署・店舗横断でデータ活用していく必要がある。そのために全体ルールを設計し、各ドメイン責任者がそのルールに従ってデータ管理をする必要がある。
データメッシュ


例)

  • セールスで使用されるSalesforce

  • 経理で使用されるfreee会計

  • マーケティングで使用されるMAツールのMarketo

など各部署で使われているデータを各部署が責任を持って管理
全体のデータ管理部署では他部署からもアクセスしやすい状態を作る


データメッシュの懸念点

  • 各部署にデータ管理できる人材が必要

  • 部署ごとのデータ以外が少ないことが前提

    • 横断やそれ以外のデータが多いと結局データレイクあった方がいい、横断部署で責任もって管理しないといけないとなるため

  • 完璧なデータガバナンスは難しい

    • 各部署に管理任せるため品質などのブレは発生する

    • ルール細かすぎると守られなくなってしまう

上記のようにデータマッシュ実現するうえで各部署のデータが独自ルールで好き勝手に作られないようにするのに重要なのがデータファブリックという考え。 ※好き勝手に作られた無法地帯のデータのことをデータスワンプという



データファブリック

概要説明

分散されたデータの管理と統合のための総合的なプラットフォームやアーキテクチャを指す用語


データファブリックに求められるもの

  • 信頼できるデータの提供

    • 全体ルールの策定

    • (ルールの適応状態の監視)←各ドメインが責任者

  • データの提供窓口の統一

    • セキュリティとアクセスコントロール

    • データカタログなど各データの使用に必要な情報の整備

  • ビジネス要件に合わせたデータの整形・統合=セマンティックレイヤ


セマンティックレイヤ


ビジネス指標の定義を一括管理するレイヤ
https://dev.classmethod.jp/articles/developersio-2023-semantic-layer-difference-looker-and-dbt/
DWH上でデータマート等で指標を管理することもできると思うが、Semantic Layerを使うメリットとは?
ビジネス指標の定義のためにドメインを横断してデータ統合などする必要あるため


データファブリック製品例

Dataplex
Googleの製品内限定だが部署ごとに違うCloudやBigqueryなど使っていた場合に統合管理できる


参考サイト

+ChatGPT

この記事が気に入ったらサポートをしてみませんか?