統合データ分析基盤

UAP(Unified Analytics Platform)、MDS(Modern Data Stack)とか呼ばれているもの

概念としては分かるけど実装のイメージが付かない人向け


なぜ必要か?

個々のデータベースでは、分析のために必要な要件を満たせないから
・データの品質
・データに対するアクセス管理
・サービス(データソース)としての可用性
・分析に使うツールに対するサポート

データ分析基盤を作ることによって、組織内の各部門において、データ活用(セルフサービスBI、モデル組み込みアプリの開発運用など)のハードルが下がる

構成要素

データソース

・実装例
 ・業務システムのDB
 ・DBからエクスポートしてきたCSVファイルやExcelファイル
 ・オープンAPIなど

ETLツール

・様々なデータソースに対するコネクタを備えている
・実装例
 ・Glue(AWS)
 ・CloudDataFusion(GCP)

データレイク

・非構造化データも格納できるデータベース
・構造化データと非構造化データレイクの両方を格納できるプロダクトは、「レイクハウス」とも呼ばれる
・ELT機能を備えている
・実装例
 ・S3(AWS)
 ・Google CloudStorage(GCP)
 ・Snowflake

ワークフローエンジン(ETLツール)

・パイプラインとも呼ばれる
・前処理を行う
 ・データクレンジング
 ・メジャー算出
 ・スタースキーマ化
・実装例
 ・DataFactory(Microsoft Fabric)
  ・DataFlow(PowerQuery Online):処理を定義
  ・Pipeline:ジョブコントローラ的なもの
 ・TableauPrep
 ・Alteryx

データウェアハウス(DWH)

・全社的に一元化(SSOT、Single Source of Trust)された分析用データベース
・実装例
 ・Redshift(AWS)
 ・BigQuery(GCP)

データマート

・モデル組み込みアプリやBIツールが直接アクセスするDB
・DWH機能で作成できることもある
・使用部門ごとに作成する(他部門への影響を気にする必要なし)、使用部門で使いやすいようにテーブルを結合して高速化したもの
・実装例:
 ・Semantic Model(Microsoft Fabric):旧データセット

BIレポート

・インタラクティブなダッシュボードなど
・ユーザは、データ分析者
・セルフサービスBIツールで作成される
・実装例
 ・PowerBI
 ・Tableau
 ・Locker
 ・SAS

モデル組み込みアプリ

・機械学習モデル(予測器や分類器)などを組み込んだアプリなど
・ユーザは、アプリのユーザ
・アプリが提供できると、データソースの役割も果たし、フィードバックループを回せるようになる


導入の順番

①データマート:ユースケース(例:ダッシュボードに表示するデータを格納したい)を実現するため
②データレイク:データソースからデータを収集するため
③DWH:①と②のギャップを埋めるために、データを前処理(クレンジング&指標算出)して格納しておく

ELT vs. ELT

ETL(抽出→変換→取り込み)

○定義・特徴
・ストレージ(DWHが代表例)に格納する前に行う(クレンジング、マスキング、標準化、構造化などが目的)
変換はETLツール上で行う(ステージング)、ツールを使わないとスクリプト化や監視の手間が必要
・DWHを作成するまでの処理時間が長い
・DWHができた後は、高速で安全
・伝統的な手法なので人材も多い
○ ETLツール
・PowerQuery(PowerBIやExcel向けETL)
・TableauPrep
・Alteryx

ELT(抽出→取り込み→変換)

○定義・特徴
・未加工データをひとまずストレージ(データレイクが代表例)に格納する
・非構造データも格納しているため、データ分析の幅が広がる(が、分析者のスキル要件も高くなる)
・巨大なストレージが必要
変換はストレージ上で実施する(他のツールは不要)
○ストレージ
・データレイク:Snowflake
・DWH:Amazon Redshift、Google BigQuery

Microsoft Fabric

イメージしやすい統合データ分析基盤の実装例
2023年11月16日にGA(一般提供)リリース

7つのワークロード領域SaaS
どうせ名前はすぐに変わりそうだけど

セキュリティとガバナンスはPurviewで提供している

Data Factory

ローコードETL

Synapse Data Engineering

データエンジニア向け
Sparkを使うことにより大規模なETLを行う

Synapse Data Science

データサイエンティスト向け
機械学習モデルをデプロイする

Synapse Data Wharehousing

T-SQL

Synapse Real Time Analysis

データアナリスト向け

Power BI

Data Activator



この記事が気に入ったらサポートをしてみませんか?