![見出し画像](https://assets.st-note.com/production/uploads/images/113581011/rectangle_large_type_2_af91a0bc3d092198bc0baf7cae7eee4b.jpeg?width=1200)
データの一元集約によるSSOTの実現:DWHとMDM【データの信頼性#2】
お疲れ様です。ときどき生魚を食べたくなりますよね。Shinです。
前回、データ活用における設計思想のひとつ「信頼できる唯一の情報源(SSOT)」の考慮が何故必要なのかについて整理しました。
今日はこのSSOTを具体的に実現するための方式について、代表的なDWHとMDMについて整理します。
データウェアハウス(DWH)
DWHはその名が示す通り「データの倉庫」を意味する概念です。データを目的別に整理し、リレーショナルな形式でデータを保管します。一般的にDWHはデータベースで実装されます。AWSで実装するなら、Amazon RDSもしくはAmazon Redshiftを使うのが一般的でしょうか。昨今ではSnowflakeなどのDWHのSaaSもありますね。
DWHは、データの一元管理によってSSOTを支持します。企業内に分散した各源泉システム(=業務システム)が持つデータがすべてDWHに集約されることにより、データ活用者は常にDWHを参照して、DWHに存在するデータを正としてデータ分析を行うことが可能です。
もちろん、上記の効果を期待するためには、DWHが適切に運用されていることが前提になります。分析対象のデータがDWHにすべて格納されていなかったり、類似データが識別可能でなかったり、複製データが散在していたり、データが一元的に整理された状態で管理されていなければ、SSOTの効果を期待できるとは言えません。
DWHの効果を発揮するためには、データレイクやデータマートの整備も含めて検討が必要です。今日はこれらについては詳説しないため、Tableauの記事を貼っておきます。
マスタデータ管理(MDM)
マスタデータ管理は、企業内に存在するマスタデータを一元的に管理し、複数の源泉システムで同じマスタデータを利用可能にする概念です。
データ連携またはMDMを行わない場合、マスタデータは各源泉システムで管理されます。その結果、取引先マスタや従業員マスタなど、複数のシステムで利用が想定されるマスタデータについては、各源泉システムそれぞれで個別管理する必要があり、マスタデータに更新があった場合には、そのマスタデータを利用する全ての源泉システムのデータに変更を加える必要があります。
一般的な実装として、ある単一の場所でマスタデータを一元管理し、データの登録や更新等の変更作業はすべてMDMシステム上で行うような仕組みにします。マスタデータを利用する各源泉システムは、MDMシステムにあるマスタデータを常に参照するようにします。
そのための参照の仕組みは、MDMシステム側に配信機能を持たせるか、ETL等でデータ連携するか、ジョブ管理ツール等を用いてAPIで取得するか、源泉システム側に集信機能を持たせるか、などなど様々に考えられます。
これらの機能実装により、マスタデータに関してはMDMシステムという「信頼できる唯一の情報源」を確保することが可能になります。
おわりに
今回は代表的なSSOTの実現方式であるDWHとMDMについて簡単に触れました。これらのソリューションは、いずれもデータの一元集約によってSSOTの効果を期待しています。次回は別の切り口として、データを分散させたままSSOTを実現する方法について考えてみたいと思います。
最後までお読みいただきありがとうございました。
この記事が気に入ったらサポートをしてみませんか?