見出し画像

DMBOK第11章データウェアハウスとビジネスインテリジェンス

要約

データウェアハウスは、統合意思決定支援データベースであり、また、ビジネスインテリジェンス(BI)はデータ分析とその技術を指します。ビル・インモンとラルフ・キンボールは、データウェアハウスのデザインにおいて異なるアプローチを提唱しております。
データ取り込みには自立取り込みと継続的更新の二つのアプローチがあり、履歴データ取得がデータウェアハウスの大きな利点となります。バッチ処理を用いて変更データを取り込み、近年ではリアルタイムと準リアルタイムの手法も登場しています。評価尺度は、利用者数やクエリ数、レスポンス時間などで測定され、これらはデータウェアハウスのパフォーマンス向上の判断材料となります。

前章

前の章である第10章参照データとマスターデータはこちらです。

一般的な知識

データウェアハウスとは

データウェアハウスは統合意思決定支援データベースとその関連ソフトウェアプログラムの2つの主要コンポーネントの組み合わせになります。
BIのためにデータ配信機能を持つすべてのデータストアや抽出データが含まれます。データウェアハウスには履歴や分析等のBI要件に対応するためのデータマートも含まれます。

ビジネスインテリジェンスとは

ビジネスインテリジェンスには2つの意味があります。1つ目は組織の業務と改善の機会を把握するために使われるデータ分析の1種です。2つ目はそれらのようなデータ分析を可能にする一連の技術を指します。
組織が自社のデータに関して、適切な問い合わせをすれば、その製品やサービス、顧客についての知見が得られ、戦略的目標を達成する方法を正しく決定できます。意思決定サポートツールが進化した結果、BIツールは、クエリ発行やデータマイニング、統計分析などの機能を持ち、予算編成から高度な分析まで可能になりました。

データウェアハウスのデザインパターン

ビル・インモン(Bill Inmon)とラルフ・キンボール(Ralph Kimball)。
上記の2人はデータウエアハウスとは何かについてモデリングと開発に異なるアプローチを持っています。
インモンは「経営陣の意思決定プロセスを支えサブジェクト(主題)別に統合化された時系列な不変データの集合」と定義して、データの保存と管理には正規化されたリレーショナルモデルが使われると主張しています。
キンボールは、「ウェアハウスはクエリと分析用に特別に構成されたトランザクションデータのコピー」と定義してdimensionalモデルが必要であると主張しています。

Bill Inmonのコーポレートインフォメーションファクトリー

インモンの「経営陣の意思決定プロセスを支えサブジェクト(主題)別に統合化された時系列な不変データの集合」という部分は、コーポレートインフォメーションファクトリーをサポートする概念とシェアハウスとオペレーションシステムの違いを表しています。

コーポレートインフォメーションファクトリー(DATA INSIGHTより)


Ralph KimballのDWアーキテクチャコンポーネント

キンボールの「ウェアハウスはクエリと分析用に特別に構成されたトランザクションデータのコピー」と定義していますが、コピーという表現は正確ではありません。エンティティリレーションシップモデルのようには正規化されていません。

DWアーキテクチャコンポーネント(DATA INSIGHTより)

Data Vault

Kimballアプローチでいうステージング領域とプレゼンテーション領域の間にHub、Satellite、Linkと呼ばれる3種類のテーブルで作られたエンタープライズデータモデルの領域を作るという手法とされています。

2020年頃から注目され始めています。

Data VaultによるDWHアーキテクチャ概要図(DATA INSIGHTより)

上記のいくつかのアーキテクチャは、データモデリングと繋がります。ご興味ある方は下記の記事をご覧になって下さい。

取込処理の種類

データやハウジングに使われる塩のデータ=プロセスは自立取り込みと継続的更新があります。
履歴データの取り込みは通常は1度だけ実行され、データに問題があった場合は、それを解決しながら複数回実行されます。いちど取り込まれたら再度チェックをする事はありません。
継続的更新は、家ハウス内のデータを最新の状態に保つためにスケジュールに沿って定期的に実行されます。

履歴データ

データウエアハウスの利点の1つはデータベースが保持するデータの詳細履歴が取得できることです。この詳細な履歴を取得するには、履歴を収集した組織は要件に基づいて設計する必要があります。また、ある時点のスナップショットを再現するには、単純に現在の状態を提示することとは異なるアプローチを必要とします。

バッチによる変更データの取り込み

データウエアハウスへのデータは、日時で取り込まれることが多く、夜間のある時間帯を使ってバッチ処理されます。各データソースはそれぞれ異なる変更記録の方法を採用している可能性があるため、取り込むプロセスに関しては、様々な変更検出に対応する必要が出てきます。

一般的なものだと、タイムスタンプ付きのテーブルやログテーブルから取り込みます。 タイムスタンピング機能を持たない古いシステムの場合や特定のバッチが失敗する場合は、データの取り込みが発生します。

準リアルタイムとリアルタイム

リアルタイムや準リアルタイムを実現するために、新しいアーキテクチャが登場しました。 変化が激しい新規データがもたらす変更の影響を防ぐために安定して履歴データであり、大量のデータウェアハウスのデータから分離する必要があります。分離を実現する典型的なアーキテクチャーとして、パーティションの構築と異なるパーティションにユニオンクエリを使うことの組み合わせがあります。

この辺りの技術内容はまた別途書きたいと思います。

評価尺度

利用評価尺度

データウェアハウス利用評価尺度には、登録ユーザ数、接続ユーザー数、同時接続ユーザー数などが含まれます。これらの評価尺度は、組織内でデータウェアハウスを利用している人の数を示すことになります。実際にそのツールにアクセスしている人を数えることがより正確な測定値になります。また、一定時間ごとにユーザから送信されるクエリの数は、特に優れた技術的測定値になります。

レスポンスとパフォーマンスの評価尺度

ほとんどのクエリツールは、応答時間を測定できますし、パフォーマンスの評価結果も取得することができます。 評価結果を取得することで、データウェアハウスの課金状況やパフォーマンスを向上させていく判断をすることができるようになります。

Google Cloudだと以下のような記事が該当します。

まとめ

以上、データウェアハウスとビジネスインテリジェンスについて解説しました。

データ基盤には欠かせないデータウェアハウスは、データモデリングの巨匠のアーキテクチャが数十年に渡って浸透しています。最近だとデータモデリングについても話題なので、関心がある方は見て見ても良いかもしれませんね。

DMBOKのデータウェアハウスとビジネスインテリジェンスについて特に重要な点を解説しました。ただし、非常に量が多いため解説していない部分が多々あります。詳細は本書を手にとってみて下さい。


この記事が気に入ったらサポートをしてみませんか?