メダリオンアーキテクチャを1分で解説

最近、メダリオンアーキテクチャを用いた開発を行うことになったので、備忘録として記載します。
メダリオンアーキテクチャを行う環境として、Azureが適しています。

概要
メダリオンアーキテクチャは、データレイクハウスのデータを整理・分析するためのデータ設計パターンです。
このアーキテクチャは、3つのレイヤー(ブロンズ、シルバー、ゴールド)を持ち、データの構造と品質を向上させることを目的としています。

各レイヤーは、DBとし、店の売上金額や人件費をデータを例に説明します。

ブロンズ:データをそのまま保存する(CSVなどの元データを格納)
シルバー:データの重複&不要データ(返品や不良品)、形式の統一(売り上げ計算するシステムが取り込めるフォーマットに変更したりテーブルの再定義など)
ゴールド:曜日単位での平均売上金額、人気商品の記録、従業員の平均残業時間など

メダリオンアーキテクチャーを基に
店の売上データを分析に利用することを目的として、メダリオンアーキテクチャを利用する場合。
ブロンズレイヤーには、未加工データを格納します。
シルバーレイヤーでは、ブロンズレイヤーのデータをマッチング、マージ、フィルタリング、クレンジング(適度なレベル)を行います。

一般的にシステムの運用では、シルバーまでのレイヤーまでしか行いません。ですが、この売り上げのデータからマーケティングや戦略を考えるとなると更に記載のデータが必要となり、このデータを管理するレイヤーがゴールドになります。

SQLサーバを3台構築するなどコストがかかる部分はありますが、元データのCSVファイル等の管理もブロンズのレイヤーが担ってくれたり、各レイヤーのデータを確認できるので、拡張性にも優れています。

今後のデータ分析やAI技術の発展で流行ってくるかもしれません。

参考サイト
1,メダリオンアーキテクチャ
https://learn.microsoft.com/ja-jp/azure/databricks/lakehouse/medallion
https://docs.gcp.databricks.com/ja/lakehouse/medallion.html

2,データレイクについて
https://www.nttdata.com/jp/ja/data-insight/2023/0620/

この記事が気に入ったらサポートをしてみませんか?