見出し画像

データメッシュの問題を解決するためにメタデータを活用しよう

今日データの重要性はますます高まっており、データメッシュを採用している組織が増えています。
しかしデータメッシュの良く知られた問題「データのサイロ化」にはどう対応すればよいのでしょうか?

問題を少し詳しく見る

データメッシュによって各部署が各々責任を持ってデータを管理するという思想は素晴らしいです。
ですが、そのためにデータのサイロ化という問題が発生しています。

ECサイトを運営する組織を例に見てみましょう。
注文の詳細、商品情報、請求書、在庫状況といった情報はどこの部署も必要としています。
各部署がこれらのデータを独自に処理し、独自のテーブルにしたときにどうなるでしょうか?
きっと似たような処理や似たようなテーブルの列が乱立することでしょう。
しかも、処理や列の名前は同じなのに微妙に集計ロジックが違っていたり、逆に全く同じロジックから生まれた列なのに微妙に異なる列名として格納されたりします。
こうなると、後続で待つアナリストたちがこれらデータを適切に見つけて使うことはもはや困難でしょう。
不正確な分析や可視化は組織の意思決定を歪めることになり、ひいては会社の損失へと繋がります。

どう解決するか?

長期的な理想を言うと、データガバナンスを会社として取り決め、ガバナンスフレームワークを包括的に導入することが求められます。
しかしこれには多くの金銭的・時間的・人的コストを要します。
もっと短期的な解決策でいうと、共通のデータレイヤーを用意したり共通化された処理を提供する中央プラットフォームを用意しましょう。
このプラットフォームにより用意された共通データを各データプロダクトが参照することで無駄な重複データや重複処理を排除します。
また各データプロダクトが利用するデータ処理パイプラインにメタデータを付与することを強制したり、データ品質を自動で観測するような機能も持たせましょう
そうして企業内でデータの一貫性や整合性を確保するのです。

実際これを実現するとなると、各パブリッククラウドが提供するデータウェアハウスサービスに備わるメタデータ管理機能を使ったり、各OSSが提供するサービスを使うことになるでしょう。
言うは易く行うは難しな領域だと思います。

参考

Enhancing Data Governance and Quality with Metadata

よろしければサポートお願いします! いただいたサポートはクリエイターとしての活動費に使わせていただきます!