見出し画像

DMBOK第13章データ品質

要約

データ品質とは広義であるため評価軸を使い、運用していく必要があります。データ品質ツールを導入する前に時間をかけて課題の整理やアセスメントを実施するべきです。

データ品質に必要な一般的知識

データ品質とは?

想定していないデータが入っていたり、偏ったデータしか入っていなかったり、表記が統制されていなかったりしないことを高品質と指すことがしばしばあります。
DMBOKではデータ品質という用語を下記のように2つに分離しています。

・高品質なデータに関する特性
・データ品質を測定し、改善するために利用されるプロセス

DMBOKより

データ品質が上がると何が嬉しいのか

データ利活用の信頼性や企業の信頼性が向上します。また、品質が上がっているとデータの完全性、整合性の調査にかかる時間が少なくなります。

データの品質低下の影響

組織の評判が損なわれ、罰金や収益・顧客の損失が挙げられています。
ただし、注意点としては高品質なデータ自体を目的としてはいけないことです。あくまでも組織の成功のための1つの手段です。

一般的なデータ品質評価軸

データ品質をどのように判断するのかというとDMBOK記載の評価軸を使うことをおすすめします。

すべての人が合意する、たった1つのデータ品質評価軸はないが、どれにも共通する考えが含まれている。評価軸には客観的に測定できる特性(完全性、有効性、形式適合性)と主観的解釈に大きく依存する特性(有用性、信頼性、評判)が含まれる。どのような名前が使われていたとしても、評価軸は以下のことに注目している。十分なデータか、正しいかどうか、どの程度互いに合致しているか、最新か、アクセス可能か、利用可能か、安全かどうかなどである。

DMBOKより

データ品質問題を発生させる一般的な原因

  1. リーダーシップの欠如による問題

  2. データ入力プロセスで発生する問題

  3. データ処理機能の稼働中に発生する問題

  4. システム設計が原因で起きる問題

  5. 問題の修復により発生する問題

詳細は下記になります。

1. リーダーシップの欠如による問題

多くのデータ品質の問題の多くは、データ入力エラーが原因であると多くの人が考えているが、それは間違いという調査があります。多くのデータ品質問題は高品質なデータに対する組織のコミットメントの欠如によって引き起こされています。コミットメントの欠如自体がガバナンスとマネジメント両方を持つべきリーダーシップの欠如に由来しています。

2. データ入力プロセスで発生する問題

皆さんもご存知の通り、入力時点で誤ったデータが混入することは多々あると思います。リストエントリーやフィールドの影響や業務プロセスの変更、一貫していない業務プロセス等があります。

3. データ処理機能の稼働中に発生する問題

入力以外にもデータソースの仕様の誤認識、送られてくるデータ構造の変更等もよくあるケースになります。ベンダーツールや他の部署が扱っているサーバー等、自分が把握できていないところから発生します。

4. システム設計が原因で起きる問題

こちらもよく発生することですが、参照整合制制約、一意性制約の不備等が挙げられます。一意性を想定しているが重複してデータが入っていたり、未入力カラムに初期値がいつからか設定されていたりします。

5. 問題の修復により発生する問題

上記1~4のような問題が発生するとデータパッチを行い修正します。しかし、こちらが問題になります。特に人間が手作業で行うデータパッチは、テストされていないプログラムと同様、予期せぬ結果がさらにエラーを発生させたり、必要以上にデータを変更したりするリスクがあります。
DMBOKでは手作業のデータパッチは全く推奨されておらず、全ての変更は統制された変更管理プロセスを経る必要があると記載されています。

実際のデータ品質の進め方

  1. 高品質なデータを定義すること

  2. データ品質戦略を定義すること

  3. 優先されるデータと業務ルールを特定する

  4. 最初のデータ品質アセスメントを実施する

  5. 実現可能な改善点を特定して優先順位をつける

  6. データ品質向上の目標を策定する

  7. データ品質オペレーションを開発し展開する

下記で詳細を書きます。

1. 高品質なデータを定義すること

高品質なデータとは何を意味するのかを定義できる人が少ない。多くの人は、「データは正しいものでなければならない」、「正確なデータが必要である」などと表現する。
上記で登場した一般的な評価軸である完全性や有効性等の評価軸を使うことになるケースが多いです。

2. データ品質戦略を定義すること

データ品質の優先順位は、ビジネス戦略に沿ったものでなければいけませ
ん。 アナリストやデータスチュワードが綿密に協力しても企業が抱えるデータ品質の課題を全て解決することはできません。データ品質戦略は、ベストプラクティスをどのように広げていくかについて考えなければいけません。

3. 優先されるデータと業務ルールを特定する

すべてのデータが同じ重要性を持つ事はありません。データ品質管理の取り組みは、まず、組織内の最も重要なデータ、特に経営に関わるようなデータに焦点を当てる必要があります。
多くの場合、データ品質改善への取り組みは、マスターデータから始まります。これは、どの組織においても最も重要なデータになり得るからです。
データ品質の測定値は、データが利用に適しているかどうかを示す値です。測定は既知のデータ利用目的に対して、データ品質評価軸に基づいた測定可能なルールに関連付けて行われます。
データ品質のルールを定義する事は、一般的には困難です。

4. 最初のデータ品質アセスメントを実施する

データ品質アセスメントの目指す最初のゴールは、データについて学び、改善のために実行可能な計画を策定することです。
アセスメントの対象となるデータを特定します。例えば、小さなデータセットなどです。
データの要素とデータの利用者を特定します。
対象データから発生する既知のリスクを特定し、組織に与える潜在的な影響。

5. 実現可能な改善点を特定して優先順位をつける

改善点を特定するには問題の影響範囲を把握する必要があり、最終的にデータ分析及びステークホルダーとの協議が必要です。 そのために大規模なデータセットに対する本格的なデータプロファイリングが必要になるケースがあります。他にもデータの問題から影響を受けているステークホルダーへのインタビューなども必要です。

6. データ品質向上の目標を策定する

変革に対する文化的な抵抗等、様々な制約により計画が行き詰まることを防ぐために、データ品質改善の業務価値を一貫して定量化し、具体的で達成可能な目標を設定します。
データ品質の完全性等は、業務への影響がない限り誰も気に留めません。データの改善のためには、投資に対するプラスの見返りが必要です。よって問題が見つかった場合は、改善に対するROIを以下の基準で決定する必要があります。

・影響を受けるデータの重要度
・影響を受けるデータの量
・データの経過年数
・影響を受ける業務プロセスの数と種類
・影響を受ける顧客、クライアント、ベンダー、従業員の数
・根本原因に対処するためのコスト
・回避策にかかるコスト

DMBOKより

例えば、目標がプロセスの改善やシステムの改修により、顧客データの完全性を90%から95%に向上させるとします。改善の成果を示すためには、初期測定結果と改善結果の比較をしどのように向上したのかを表現します。しかし、本当の価値は改善がもたらす恩恵であり、例えば、顧客の苦情が減ったり間違いを訂正したりする時間が短くなったりすることです。

7. データ品質オペレーションを開発し展開する

まずはデータ品質ルールを管理していきます。例えば、ルールを文書化するための標準とテンプレートを確立し、一環した書式と意味を維持していきます。また、データ品質の評価軸と業務への影響を関連付けます。 そして、文書化されたルールをすべてのデータ利用者がアクセスできるようにする必要があります。

次にデータ品質を測定し、監視をします。監視が必要な理由は2つあります。1つ目がデータ利用者に品質レベルを知らせること、2つ目は、業務プロセスやITプロセスに対する変更によって引き起こされるリスクを管理するためです。

データ品質SLAを定めます。各測定結果に対する許容可能な閾値や想定される問題解決と修復にかかる時間と期限、その他にも報告戦略及び報奨と罰則の可能性などを定義します。
指定された解決期間内に課題が対処されない場合は、サービスレベルが守られてないことをガバナンスの各階層と経営スタイル報告プロセスが存在していなければいけません。データ品質SLAは、   数値発生までの制限時間や階層毎の通知先の氏名、どの時点で報告が行われるかを設定します。

問題の特定(DMBOK未記載)

ここではデータ品質について問題を特定する具体的な方法について述べます。DMBOKはあくまで体系本なので実務で実行しようとしても、具体的な動きが分からないと思います。ではどうすればいいのか、を解決するための1つの方法として参考にして頂ければ幸いです。(私個人の考えです。DMBOKには記載が無いので、より良い方法があればそちらを参考にされてください。)

データ品質課題リストを作成

まずは各チームにデータについての課題感をヒアリングしていきます。
ヒアリング内容は問題点、理想型、金額、影響範囲等になります(企業によって優先順位も変わるのでヒアリング内容も変わる可能性があります)。

具体例としてリストを作成しました。

データ品質課題リスト(独自作成)

データ品質評価表を作成

データ品質の課題を整理後、評価表を作成します。評価表はDMBOKにも記載があります。(ただし、個人的にはデータ品質ツールで管理するのが良いと思っているので、評価表は作成しなくても問題ありません。)

データ品質評価表

まとめ

この章ではデータ品質の定義をし、データ品質が向上したり、あるいは下がったりすると、どのような影響があるのかを解説しました。

さらに「データ品質」という非常に広義な単語を一般的な評価軸に落とし込むことで具体性を持たせることができました。ただし、本書のみでデータ品質の評価を行う事は、難易度が高いので具体的な方法も示しました。

まずは各部門の課題感をヒアリングすることが非常に重要になってきます。データ品質は対象範囲が広くなりがちなため優先順位を絞ることが必須です。ここを後回しにすると品質を保つ作業量が多くなってしまい疲弊するので注意して下さい。

DMBOKのデータ品質について特に重要な点を解説しました。ただし、非常に量が多いため解説していない部分が多々あります。詳細は本書を手にとってみて下さい。


この記事が気に入ったらサポートをしてみませんか?