見出し画像

データの一元集約によるSSOTの実現:DWHとMDM【データの信頼性#2】

お疲れ様です。ときどき生魚を食べたくなりますよね。Shinです。

前回、データ活用における設計思想のひとつ「信頼できる唯一の情報源(SSOT)」の考慮が何故必要なのかについて整理しました。

今日はこのSSOTを具体的に実現するための方式について、代表的なDWHとMDMについて整理します。

データウェアハウス(DWH)

DWHはその名が示す通り「データの倉庫」を意味する概念です。データを目的別に整理し、リレーショナルな形式でデータを保管します。一般的にDWHはデータベースで実装されます。AWSで実装するなら、Amazon RDSもしくはAmazon Redshiftを使うのが一般的でしょうか。昨今ではSnowflakeなどのDWHのSaaSもありますね。

DWHは、データの一元管理によってSSOTを支持します。企業内に分散した各源泉システム(=業務システム)が持つデータがすべてDWHに集約されることにより、データ活用者は常にDWHを参照して、DWHに存在するデータを正としてデータ分析を行うことが可能です。

もちろん、上記の効果を期待するためには、DWHが適切に運用されていることが前提になります。分析対象のデータがDWHにすべて格納されていなかったり、類似データが識別可能でなかったり、複製データが散在していたり、データが一元的に整理された状態で管理されていなければ、SSOTの効果を期待できるとは言えません。

DWHの効果を発揮するためには、データレイクやデータマートの整備も含めて検討が必要です。今日はこれらについては詳説しないため、Tableauの記事を貼っておきます。

マスタデータ管理(MDM)

マスタデータ管理は、企業内に存在するマスタデータを一元的に管理し、複数の源泉システムで同じマスタデータを利用可能にする概念です。

データ連携またはMDMを行わない場合、マスタデータは各源泉システムで管理されます。その結果、取引先マスタや従業員マスタなど、複数のシステムで利用が想定されるマスタデータについては、各源泉システムそれぞれで個別管理する必要があり、マスタデータに更新があった場合には、そのマスタデータを利用する全ての源泉システムのデータに変更を加える必要があります。

一般的な実装として、ある単一の場所でマスタデータを一元管理し、データの登録や更新等の変更作業はすべてMDMシステム上で行うような仕組みにします。マスタデータを利用する各源泉システムは、MDMシステムにあるマスタデータを常に参照するようにします。

そのための参照の仕組みは、MDMシステム側に配信機能を持たせるか、ETL等でデータ連携するか、ジョブ管理ツール等を用いてAPIで取得するか、源泉システム側に集信機能を持たせるか、などなど様々に考えられます。

これらの機能実装により、マスタデータに関してはMDMシステムという「信頼できる唯一の情報源」を確保することが可能になります。

おわりに

今回は代表的なSSOTの実現方式であるDWHとMDMについて簡単に触れました。これらのソリューションは、いずれもデータの一元集約によってSSOTの効果を期待しています。次回は別の切り口として、データを分散させたままSSOTを実現する方法について考えてみたいと思います。

最後までお読みいただきありがとうございました。


この記事が気に入ったらサポートをしてみませんか?