データメッシュの課題を解決するデータファブリックとは?
企業がデータを活用できるようにデータメッシュが生まれた
だがデータメッシュは実装が難しい
そこでデータファブリックが生まれた
データファブリックはオンプレでもクラウドでもハイブリッドでも、どんな環境でもデータ管理やデータアクセスといったデータガバナンスを統一的に効かせるのに役立つ
データファブリックの目指すところは、ビジネス担当の人々がデータを活用して価値を生み出し、慣れ親しんだテクノロジを選べることにある
データメッシュの課題とデータファブリックはそれにどう立ち向かうかというと―
各チームがインフラとデータを抱えてしまうことによりデータサイロができ、チーム内でデータを活用することはできてもチーム間でやり取りしようとすると難しい
データファブリックは統一層を与えてこれを解決する
データプロダクトを作るときにあるチームのデータをコピーしてくる必要があるが、これによって余計なストレージコストだったりガバナンス問題が浮上する
データファブリックはコピーせずに利用できる仮想化技術でこれに挑む
チームごとにAWSだったりAzureだったりオンプレだったりと異なるツールやプラットフォームを使っていてデータ統合やセキュリティ、ガバナンスの面で難しい
データファブリックはこれら異なる環境に重ねて標準化されたアプローチを提供する
チームごとにデータ形式が異なっていて統合作業が難しい
データファブリックではデータカタログやデータプロファイリングツールを提供することでデータの管理と体系化を行ってデータを使いやすくする
チームで様々なテクノロジを使っているため、別チームのデータを使おうとすると新たなツールや言語を学ぶ必要があり非効率
データファブリックは統一されたクエリ層をかぶせることでなじみのあるインターフェースを提供する
チームごとに使うテクノロジが異なるためセキュリティやガバナンスが異なってしまう
統一されたガバナンスレイヤーを提供することでこれを解決する
監視や監査のためにログを収集しようと思ってもテクノロジが様々に異なるため難しい
集中管理された監視とロギング機能を提供することで解決する
課金体系やライセンス体系が個々に異なるのでコストを統一して視覚化するのが難しい
すべての支出を統一して管理できる機能を提供する
データファブリックが何をもたらしてくれるか―
自動メタデータ収集
データソースの情報やデータ形式、使用状況といったメタデータを自動で収集して体系化し、効果的なデータ管理の土台を築く
セマンティック層の構築
メタデータを土台にしたセマンティック層を構築することで、異なるデータ形式や複雑なデータ構造を意識せずにデータ利用することができる
知識グラフ
データセット同士のつながりをグラフ形式で表現することができ、データ同士の関係性を見極めて分析に用いやすくします
データカタログ・プロファイリングツール
中央リポジトリでデータカタログを提供し、どんなデータがあるのかを発見して理解してアクセスすることができる
セマンティック推論層
SQLが書けない人でもデータにアクセスできるように、AIと機械学習を用いて構築された層を提供する
データ仮想化
異なるテクノロジ上のデータであること意識することなく、またデータのコピーをすることなるデータを活用できるようデータ仮想化を行う
シンプルなクエリ
ChatGPTに似たインターフェースで自然言語によってデータを取得できる
データガバナンス向上
統一されて一貫したデータガバナンスにより各データプロダクトを管理するコストが低下して効率的にデータ品質やアクセシビリティを確保できる
結論として、データメッシュで実装が難しい面のサポートするフレームワークがデータファブリックである
参考
この記事が参加している募集
よろしければサポートお願いします! いただいたサポートはクリエイターとしての活動費に使わせていただきます!