見出し画像

おい、DMBOKってなんなんだ?(その3/3)

おい、DMBOKってなんなんだ?(その1/3)おい、DMBOKってなんなんだ?(その2/3)の続き。『データマネジメント知識体系ガイドDAMA-DMBOK』の「データ品質」の章のみ切り出してまとめました。

だま
DAMA-DMBOKのデータ管理要素
引用: DAMAホイール図

11. データ品質

定義

品質管理技術をデータに適用するアクティビティを計画し、実施し、制御する。これによって、データが様々な目的で利用されて、データ利用者の要求に合致することを保証する。

多くの組織が利用目的に合わせたデータを定義することに失敗している。主な要因は、低品質なデータが組織の成功に及ぼす悪影響についての理解不足、「サイロ化」したシステムデザイン、一貫性のない開発プロセス、不完全な文書、標準の欠如、ガバナンスの欠如などである。

耳が痛いところではありますが、現実と向き合わなくてはなりません。

業務資産として情報を管理する上での障壁

データマネジメントの全ては、このデータ品質に貢献すると言っても過言ではありません。一方で、高品質なデータ自体を目的にしてはいけないとも書かれています。あくまでビジネス問い合わせに対してリスク(誤請求、収益機会損失、業務統合遅延、不正行為、誤認、企業信用力の損失など)を軽減し、効率的に回答することが目的になります。

ゴール

- データ利用者の要件に基づいて目的に合ったデータを生成するために、統制されたアプローチを開発する。
- データライフサイクルの一環としてデータ品質統制の標準、要件、仕様を定義する。
- データ品質レベルを測定し、監視し、報告書を作成するためのプロセスを定義し実施する。- プロセスやシステムの改善により、データの品質を向上させる機会を特定し提唱する。

データ品質プログラムは上記のゴールに焦点に当て、以下の原則によって導かれる。重要性(利益と危険度に基づく)、ライフサイクル管理(生成・調達から破棄までのデータチェーン全ての出力結果が対象)、予防、根本原因の修復(プロセスやサポートシステムの改修も含まれる)、ガバナンス標準重視(ステークホルダーの要求は、品質測定の標準とそれに基づく期待値とすべき)、客観的な測定と透明性業務プロセスへの組み込み、体系的な実施サービスレベルとの整合性

文章にされるとふむふむという感じですが、実際に重要性を理解してもらうことは至難の技です。高品質なデータを定義できる人の方が少ないのではないでしょうか。一つは『データ利用者の目的に合致するデータ』というところでしょうか。DMBOKを読むと”高品質”という言葉の解像度が上がっていきます。

Essential concepts

  • データ品質
    データの品質というと高品質なデータに関する特性と利用されるプロセスの両方を示すため、分離して高品質なデータを構成するもの(特性)を明確にする方が良い。品質の度合いは目的とデータ利用者の要求によって決まる

  • 重要なデータ
    組織とその顧客にとって最も重要なデータに改善努力を集中させること。規制報告作成、財務報告作成、業務ポリシー作成、継続的な運用、事業戦略などを作成するデータは一般的に重要度が高くなる。

  • データ品質評価軸
    データ品質評価を業務プロセスに加えるためには、測定可能な評価軸を設定することが必要である。

スクリーンショット 2022-04-12 7.37.26
データ品質の一般的な評価軸
  • データ品質とメタデータ
    データが何を表現するかはメタデータで定義される。利用者の期待はデータ品質によって担保される。そのため、メタデータで作成を通してデータ品質の測定基準と要件を規格化し文書化する組織の能力を向上することが重要。加えて、メタデータはデータ品質改善の優先順位や推進要因について合意を得る取組みも促進する。

  • データ品質ISO規格
    ISOは高品質なデータを規定された要件を満たすポータブルな(移植性の高い)データと定義している。ポータブルとはデータを生成したソフトウェアからデータを分離できることをいう。

  • データ品質改善ライフサイクル
    データは一連のプロセスから生まれる製品として理解される(最も単純な言い方では入力を出力に変える一連のステップ)。そのプロセス全てにおいて要件が定義されている必要があり、データ品質チームによるPDCAに基づく運用が必要。

  • データ品質に関する業務ルールのタイプ
    組織内でデータが有用で活用できるためにどうあるべきかを表す。主な業務ルールタイプは以下のとおり。

    • 定義の適合性(データ定義に対する理解と実装が統一され、正しく利用されてる状態)

    • 値の存在とレコードの完全性(欠損値に対する定義)

    • 書式遵守

    • 値ドメインに含まれる項目(データエレメントが既定値に含まれるか)

    • 範囲の適合性(データエレメントの数値範囲)

    • マッピングの適合性(データエレメントとドメインの関係が正しく表現されていること)

    • 一貫性ルール(属性を跨いでもエレメントの意味が対応している)

    • 正確性の検証(社外のものを含めた検証済みソースでの検証)

    • 一意性の検証

    • 適時性の検証(適宜アクセス可能か、利用可能か)

    • 集計チェック(妥当性の検証)

  • データ品質問題を発生させる一般的な原因
    「業務資産として情報を管理する上での障壁」の図を参考にしていただきたい。大分類は1.リーダーシップの欠如による問題、2.データ入力プロセスで発生する問題、3.データ処理機能の稼働中に発生する問題、4.システム設計が原因で起きる問題、5.問題の修復により発生する問題。うぅ・・・。

  • データプロファイリング
    データを検査し、品質を評価するために行われるデータ分析の一形式。次のような統計処理結果をレポートする。NULL数、Max、min、度数分布、タイプ/フォーマット、(クロスカラム分析)。

  • データ品質とデータ処理
    エラーの防止だけでなく、適切な処理(データクレンジングスクラブ)を行うことでデータ品質を向上させることができる。さらに、データ充実化(データセットの統合)、データ構造分析書式設定標準化などでもデータ品質を向上させることができる。

まとめ

『データの品質を上げることが目的ではなく、データ利用者の期待を満たすことが目的』。この言葉はどこか見えるところに掲げておきたいです。

利用者からするとなぜこんなに細かいことをしないといけないの?、自己満足で品質を上げたいだけじゃ?と思われることがあります(ちょっと被害妄想かもしれません。)。このような言葉を共通認識として持っていると全社的なマネジメントもしやすくなります。

専門知識としては、データ品質の軸が重要だと感じました。なかなかまとめている書籍も少ないので非常に勉強になりました。実際にどういった利用目的のためのデータにどういった品質管理をしたのかを実践編としてまとめていければと考えています。データマネジメントやってるよ!って方と繋がりたいので、このesaに興味を持たれた方は是非メッセージください。

この記事が気に入ったらサポートをしてみませんか?