統合データ分析基盤
UAP(Unified Analytics Platform)、MDS(Modern Data Stack)とか呼ばれているもの
概念としては分かるけど実装のイメージが付かない人向け
なぜ必要か?
個々のデータベースでは、分析のために必要な要件を満たせないから
・データの品質
・データに対するアクセス管理
・サービス(データソース)としての可用性
・分析に使うツールに対するサポート
データ分析基盤を作ることによって、組織内の各部門において、データ活用(セルフサービスBI、モデル組み込みアプリの開発運用など)のハードルが下がる
構成要素
データソース
・実装例
・業務システムのDB
・DBからエクスポートしてきたCSVファイルやExcelファイル
・オープンAPIなど
ETLツール
・様々なデータソースに対するコネクタを備えている
・実装例
・Glue(AWS)
・CloudDataFusion(GCP)
データレイク
・非構造化データも格納できるデータベース
・構造化データと非構造化データレイクの両方を格納できるプロダクトは、「レイクハウス」とも呼ばれる
・ELT機能を備えている
・実装例
・S3(AWS)
・Google CloudStorage(GCP)
・Snowflake
ワークフローエンジン(ETLツール)
・パイプラインとも呼ばれる
・前処理を行う
・データクレンジング
・メジャー算出
・スタースキーマ化
・実装例
・DataFactory(Microsoft Fabric)
・DataFlow(PowerQuery Online):処理を定義
・Pipeline:ジョブコントローラ的なもの
・TableauPrep
・Alteryx
データウェアハウス(DWH)
・全社的に一元化(SSOT、Single Source of Trust)された分析用データベース
・実装例
・Redshift(AWS)
・BigQuery(GCP)
データマート
・モデル組み込みアプリやBIツールが直接アクセスするDB
・DWH機能で作成できることもある
・使用部門ごとに作成する(他部門への影響を気にする必要なし)、使用部門で使いやすいようにテーブルを結合して高速化したもの
・実装例:
・Semantic Model(Microsoft Fabric):旧データセット
BIレポート
・インタラクティブなダッシュボードなど
・ユーザは、データ分析者
・セルフサービスBIツールで作成される
・実装例
・PowerBI
・Tableau
・Locker
・SAS
モデル組み込みアプリ
・機械学習モデル(予測器や分類器)などを組み込んだアプリなど
・ユーザは、アプリのユーザ
・アプリが提供できると、データソースの役割も果たし、フィードバックループを回せるようになる
導入の順番
①データマート:ユースケース(例:ダッシュボードに表示するデータを格納したい)を実現するため
②データレイク:データソースからデータを収集するため
③DWH:①と②のギャップを埋めるために、データを前処理(クレンジング&指標算出)して格納しておく
ELT vs. ELT
ETL(抽出→変換→取り込み)
○定義・特徴
・ストレージ(DWHが代表例)に格納する前に行う(クレンジング、マスキング、標準化、構造化などが目的)
・変換はETLツール上で行う(ステージング)、ツールを使わないとスクリプト化や監視の手間が必要
・DWHを作成するまでの処理時間が長い
・DWHができた後は、高速で安全
・伝統的な手法なので人材も多い
○ ETLツール
・PowerQuery(PowerBIやExcel向けETL)
・TableauPrep
・Alteryx
ELT(抽出→取り込み→変換)
○定義・特徴
・未加工データをひとまずストレージ(データレイクが代表例)に格納する
・非構造データも格納しているため、データ分析の幅が広がる(が、分析者のスキル要件も高くなる)
・巨大なストレージが必要
・変換はストレージ上で実施する(他のツールは不要)
○ストレージ
・データレイク:Snowflake
・DWH:Amazon Redshift、Google BigQuery
Microsoft Fabric
イメージしやすい統合データ分析基盤の実装例
2023年11月16日にGA(一般提供)リリース
7つのワークロード領域SaaS
どうせ名前はすぐに変わりそうだけど
セキュリティとガバナンスはPurviewで提供している
Data Factory
ローコードETL
Synapse Data Engineering
データエンジニア向け
Sparkを使うことにより大規模なETLを行う
Synapse Data Science
データサイエンティスト向け
機械学習モデルをデプロイする
Synapse Data Wharehousing
T-SQL
Synapse Real Time Analysis
データアナリスト向け
Power BI
Data Activator
この記事が気に入ったらサポートをしてみませんか?