見出し画像

データ品質とは何か? 品質の重要性、測定と改善、マネジメント、ガバナンス

本記事は、データ品質に関する記事です。
最近、業界を問わず、様々な企業のエグゼクティブやDX推進担当の方から、データガバナンス・データマネジメントに関する相談を受けることが多くあります。相談の中で、実際に議論が白熱するのが、ガバナンスやマネジメントのやり方というよりは、ガバナンスやマネジメントを整備した上でのデータ活用を進めていくユースケースをどう生み出していくかという話と、よりよい効果を生み出すためのデータ品質に関する話です。後者については、例えば、データガバナンスやマネジメントは一定の枠組みを導入したが、そもそもその運用においてデータの品質についてはどう考えていくものなのか、品質の不足によってどのような問題が起こるのか、何をメトリクスとして持つべきなのか、とよく聞かれます。本記事は、データ品質のそれらポイントとその整備・管理の実践に関して解説してみたいと思います。



データは企業の変革の源になっている

現代はクラウド、ビッグデータ、データサイエンス、IoT、AI、さらには生成AIの発展が著しく、こうした技術群の普及と影響力の拡大からDX(デジタルトランスフォーメーション)の必要性が叫ばれて久しいです。特に、その出発点であり、終着点でもあるのがデータの利活用です。人や企業の多くの活動がデジタル化されて取得可能なデータの種類も量も増え、あらゆる業界、あらゆる領域でデータ活用の試みが行われています。
データ収集、管理、整備と活用の世界は、ここ10年で劇的に変化しました。情報量はとどまることを知らずに増加しており、データを集め、組み合わせて洞察を拡大していく機会が溢れています。より多量の、より優れたデータは、企業のビジネス環境をより見晴らしがよい視点で、かつより解像度の良いレンズで見渡すことができるようにします。これまで見えなかったものが見えるようになることで、R&D、製品・サービス開発、オペレーション、営業・マーケティング、顧客体験、ブランディングも改善されていきます。
データの可視化と分析、データに基づく意思決定や予測・最適化、データ駆動型の戦略策定と遂行は、企業のアジェンダのトップに上り詰めています。競争上の差別化を図る上で、企業のマネジメントがいかにデータ活用に向けた能力を獲得し、データセントリックなプロセスと組織文化によって変革を生み出すことができるかどうかは重要な論点です。


よいデータとは何か

データによって価値を生み出すためには、その目的に沿ったデータが整備されていることがもちろん重要になります。目的に合致したデータというのは、ビジネスにおけるオペレーション、意思決定、事業計画に貢献し、企業が持っている本来の目標(KGI)に向かって前進させる成果につながるデータのことです。
逆に言うと、どのようなデータが自社の目標達成に向けた中で有用になってくるかは、目標の定義によるということです。ここは肝となるポイントです。例えば、リテールにおいて売上を向上させるという目的にフォーカスした場合は、バックエンドにおけるオペレーションの効率さと顧客接点における消費者が商品の情報に出会う粒度や正確性が重要になってくるため、できる限りノイズを排した商品データを整備する必要があるかもしれません。対して、製造業において工場の生産性向上という目的にフォーカスした場合は、不良品の発生という実態も反映した生のデータをどれだけ網羅的に収集できているかという点が重要になるかもしれません。
つまり、自社の目的に合致し、目標に向かってオペレーション、意思決定、事業計画に貢献して成果を創出するデータこそが、よいデータであり、高品質なデータといえます。


データ品質の低さがもたらすビジネスのダメージや機会損失

ビジネスを前進させるために、データの品質は高くあるべきであり、そのためにも管理・改善を行っていく必要があります。それだけでなく、データ品質という観点やその管理の欠如は、ビジネスにダメージを与えることがあります。
例えば、データの更新頻度や取得日時が不明瞭であったり、データの更新が漏れていたりすると、既に古くなったデータに基づいた分析を行ってしまい、その結果誤った意思決定に繋がる可能性があります。取引データに欠落があるために、すべてのサービスや製品の請求ができなかった場合では収益の損失が発生します。さらには、データの誤りが事業にクリティカルな状況を生み出すこともあります。誤った製品を顧客に送った場合は、顧客は返品に対応しなければならず、正しい製品を再送しなければならないコストが発生します。何よりも、レピュテーションに関わります。企業のブランドと評判を傷つけ、状況によっては大きな実害をもたらすでしょう。
とあるグローバルのECサービスで、セールスキャンペーンを行った際の話です。通常1万3000円程度で販売されている望遠レンズを9500円で販売することにしました。ところが、Webサイト上では、95円と価格が表示されていました。キャンペーン開始の数時間以内に誤りを発見し価格を修正しましたが、既に何百人ものカスタマーが95円という価格でレンズを購入していた後でした。これはキャンペーンにおける価格という比較的発覚しやすいデータの間違いですが、発見されずに埋もれ続けている誤りというのもあります。それは長い間にわたって大きな機会損失をもたらしているかもしれません。
Bhabha Atomic Research Centre(BARC)が2019年に行った調査によると、企業・組織の半数以上は、自組織の少なくとも26%のデータが不正確であると考えています。2021年にDeloitte AI Instituteが行った「AIガバナンスサーベイ」によると46%の企業がデータの品質管理や整備がされておらず、また所在が散らばっており、AI活用の妨げとなっていると考えています。
データ品質の未整備は、経済に相応の影響を与えていると推定されています。例えば、2016年のIBMの調査によると、データ品質が低いために米国経済は年間3.1兆ドルを失っていると考えられています。そしてこれは企業においても同様です。MIT Sloanの2017年のレポートによると、データ品質の低さにより、企業は平均して収益の15~25%を失っていると計算しています。


データ品質の改善と維持の重要性

データの更新漏れや誤りという問題について述べました。加えて、データが重複して存在していることや表記揺れなども、データの扱いの複雑さを増してしまうため、その品質を低下させていきます。データのバージョンが複数存在していると、矛盾し合うデータが同時に存在することもあります。これを防ぐためには、最新化とともにバージョン管理を行い、普段から名寄せや重複削除といった正規化をかけ、データを整合性の取れた扱いやすい状態に維持しておくのが肝要です。
以前、筆者が前職でマネジメントをしていた研究所にて、商品データ(プロダクトカタログ)を自動的にAIで整備するという試みを行っていたことを紹介しました。

そこで以下のようにデータ品質改善の重要性について述べました。

ECにおいては、例えば商品検索はユーザーエクスペリエンスの典型的な最初のステップとして欠かせません。欠かせないものですが、適切な情報整理があってこそ実現されるものです。単に検索だけでなく、きちんとしたカテゴリ階層に基づいたWebページのナビゲーションや、情報提供の枠組みも、プロダクトカタログがきちんと整備されてこそ提示できるものであり、これらはサービス品質の向上に大いに貢献します。

プロダクトカタログの整備は、商品データをキレイにしていくというところに留まらず、マーケティングの基礎になります。例えば、どの商品や関連商品がどれぐらい売れているのか、いつ売れているのかの正確な理解やより突っ込んだ分析、より対象を拡張した分析も、プロダクトカタログの整備により容易になります。
更に述べると、データを用いた需要の予測や、各マーケットの動向やマクロ経済の予測をも可能にします。どの商品がどれだけ売れているのかを細かく把握することで、関連インデックスの予測や、金利の利率や景気の予測等にまで発展させることも不可能ではありません。そういう高度なマーケットの理解や更に投資にまでつながっていくものとして、プロダクトカタログは非常に重要な基礎データの構築に位置づけられるのです。

このプロダクトカタログの整備においては、メーカーや量販店からのデータが多様であったり、相互に異なっているという事例も少なくありませんでした。様々な表記や形式でのバージョンが存在していたり、商品のジャンル名が間違っていたり、古いままで最新化されていないということもありました。以前は現場において発見した際にアドホックに修正したり、名寄せしたりしていましたが、そのエラーの分布を分析してAIで自動訂正するようにしたことで、検索結果の精度が改善され、売上が高まっていったという効果もありました。
データの整備と管理によるデータ品質の改善と維持は、ビジネスの基礎となります。それは思わぬダメージや機会損失を防ぐだけでなく、ビジネスのトップラインを向上させていくものでもあるわけです。


データ品質の不良はなぜ起こるか

データの品質は、ほとんどの管理者が認識しているよりも悪い状態です。そして、データ品質の不良は継続していく問題でもあります。
なぜデータ品質の不良が起こってしまうのでしょうか。答えは、現代のビジネス環境が複雑であるためです。以前、データサイエンスの進め方に関する記事でも述べましたが、今日、ビジネスエコシステムは拡大しており、そのためデータの種類が多様に存在し、様々な場所でデータは発生し、作られています。


多くの場合、企業はビジネス上の問題に取り組むために必要なデータを既にERPや各種のデータベースに所有しています。自社のコンタクトセンターの顧客からのフィードバックデータを用いるケースもあれば、Webサーバのログからデータを得るケースもあります。関連システムからAPIで取得してくる例もあるでしょう。IoTデバイスやセンサーから取得された以前はそれほど使われなかった数値データを使っている場合もあります。
取引先からデータを入手しているケースもあります。前述したメーカーや量販店からデータを取得しているような例のように、作成者が増えるともちろんデータの品質に幅ができ、誤りが混入することも増えます。
公開されている新しいデータソースを使っているケースがあります。現在、インターネットを中心に利用可能なデータが多数存在しています。従前、政府や学術機関、調査機関が発表している各種の統計データが存在します。マクロ経済指標、人口動態、天気予報のデータもあります。そして近年は、多くの団体により、多種多様なオープンデータも公開されています。
また、日進月歩を遂げているソーシャルメディアは、会話、投稿、写真、ビデオ、リツイート、シェア、フォロワーの急増等の形で、消費者やマーケットの動きを刻一刻と伝えています。更には、マーケティングリサーチ会社のパネルや、各インターネット企業・データ保有企業がそれぞれの利用制限の下で、属性データや統計データの提供を行っています。

このように企業が用いているデータは非常に幅広いソースから収集されており、それぞれにおいてその増加スピードも著しいです。加えて、自社のビジネス環境も、合併、買収、新規事業、事業整理等により常に変化しています。データ品質をいかにマネジメントするか。これは企業において戦略的なアプローチが要求される高度な命題となっています。


データの目的、品質に関する認識と議論

今日のデータ品質の課題に取り組むには戦略的なアプローチが必要であり、そのためには企業全体でのデータ品質に対する意思・考え方が重要になります。
国際的なデータ専門家で組織された非営利団体 DAMA International(本部:米国フロリダ州,Data Management Association International)のデータマネジメント体系を表した書籍 DMBOKの第二版(DAMA-DMBoK2)によると、データ品質管理とは、データが利用に適しており、データ消費者(ユーザー)のニーズを満たすことを保証するために、品質管理関連のテクノロジーをデータに適用する活動の計画、実施、管理であると定めています。データユーザーのニーズとは、始めのところで述べた「目的」のことです。
データ品質に求められる精度は、目的によって異なってきます。100%の精度が常に達成できるとは限りませんし、すべての状況においてそれが重要なわけでもありません。自社内の文書検索のためのインデックスデータの精度と、医療における臨床データの分析におけるデータの精度は求められるものが異なります。100%の精度を達成するための労力とコストは、潜在的な利益やクリティカルさの度合い等と比較検討する必要があるでしょう。そういう視点でいくと、マーケティングの見込み客データベースでは、85%の正確さでも許容範囲内になることがあるでしょう。
また、データ品質のレベルは目的によって異なりますが、実際に実現できる品質はデータ管理の現状と事業活動のコンテキストに依存します。そのため、データ品質の課題について取り組むとき、それが企業で適切に議論されているかどうか、現状認識がなされているかどうか、目標に関する合意形成がなされているかどうかというのもポイントになります。データ品質への期待は組織内で必ずしも言語化され、周知されているわけではないことがあります。そのため、最初は社内における認知と理解を獲得し、現状認識の上、基本的な品質に対する考え方を定めます。そして、自社の活動にとってのあるべきデータ品質について継続的な議論を行っていくことが大切です。できれば、経営層からミドルマネジメント、現場のメンバーまで幅広い社員がデータのありようを知り、認識をあわせ、議論し、戦略を策定し、みんなで共有することができるようになるのが理想です。
以下は、AIに関する自社の戦略を全社レベルで議論できるツールである「AI キャンバス」について解説した記事です。データ品質に関しても同様の枠組みは有効でしょう。


データ品質を図る指標体系の作成

さてデータ品質に対する考え方や期待が見えてきたところで、データ品質の測定に対する方針を定めます。
まず自社が活用しているデータセットについて把握している必要があります。どのようなデータが存在し、誰がオーナーとなっており、どのような利用目的の範囲内で活用することができるのか、そして、誰に共有することができるのか、等についてデータカタログを適切に作成し、メタデータおよびデータ自体の整理を行います。そして、データセットを把握したうえで、データ品質に関する指標を定めます。
データ品質に関する指標として、様々な団体や機関、企業によって評価軸(Dimension)や指標群(Metrics)が提唱されています。まず自社にとってのデータの品質を測定していくためには、それら提唱されている考え方や計算方法を参考に、適切な指標を体系的に作り出すことです。良い指標とは、「あなたのビジネスにパースペクティブを与え、一貫性があり、迅速に収集できるもの」です。特に優れた指標体系は先行指標と遅延指標もカバーし、長期的な見通しを与えます。
データ品質を評価する指標を作成するにあたっては、DAMAより以下6つの主要な評価軸が推奨されており、これを中心に検討を行うのがよいでしょう。

Accuracy(正確性)
データの正確さとは、データ品質の最も基本的な評価軸です。データはビジネスが取り扱う対象・事象を反映したものでなければなりません。入力ミス等はできる限り排除され、情報は古くなっておらず、内容に不備がなく、細部にいたるまで正確であるべきです。そのため、広範な、検証済み、あるいは検証可能なデータソースを用いて、データがどれだけ正しいデータソースに近いかを確認し、正確さの尺度とします。また、センサー等を使用して収集しているデータであれば、その機器が計測した結果が正しいことを定期的にチェックする必要があります。システムのデータバリデーションが正しく動作しているかも確認します。
正確性の観点からの指標としては、データの全体のうち、どれぐらい誤りや不正確なデータをビジネスとして許容できるかというものがあります。もちろん企業は不正確さの低減に努めるべきですが、完全に0にすることが困難なケースもあります。そのような場合は、システム内で許可する誤りの最大数を決定しておく必要があるでしょう。


Completeness(完全性)
完全性は、データが必要とされるすべての項目においてデータの値が利用可能であることを示したものです。つまり、データの項目に欠損がないということを意味します。例えば、登録された会員データにおいて住所が必須項目であれば、すべての会員データのレコードにおいては住所が入力されていることになります。住所のないレコードは欠損が存在するレコードとなり、会員100人のうち、4人の会員の住所データがなければ、住所に関するデータの完全性は、96’%となります。
ちなみに欠損している項目に対しては、データ拡張における欠損値をうめていく手法を用いてデータ品質を整えていく方法があります。


Consistency(一貫性)
データの一貫性とは、企業内の異なる場所に保存されている同じデータセットが一致しており、競合せず矛盾しないことを意味します。例えば、営業システム内の顧客プロファイルとCDPに登録されている顧客データは同じ個人情報を持っていること等を指します。もちろん、企業内のデータ処理プロセスに乗っ取って、データが名寄せされていたり、加工されていたり、拡張されていたりすることがありますが、その場合は、その処理プロセスを経ることでデータが一致することが一貫性を保証することになります。
一貫性について考える場合、同じデータセットが企業内でいくつどこに存在するかを確認しておくこと。また、企業内のデータ処理プロセスにおける変更が常に一定ではなく、毎回加工する内容や方法が変わったりするケースにおいては一貫性を保つことはできないため、データの処理方法もデータ項目と同様にきちんと定義し、そのバージョンを管理して安定させておく必要があります。
一貫性を確保するには、後述の一意性の確保にも通じますが、データ統合によりマスタデータを構築することがもっとも確実な手段です。マスタデータを確立して、既存のシステムはすべてそのデータを用いるというデータのフローを確定させることで、企業全体でデータの一貫性を獲得できます。


Timeliness(適時性)
適時性のあるデータとは、必要なときにいつでもすぐに利用できる、できる限り新しい情報のことです。データが常に利用可能でアクセスしやすいように、データはリアルタイムに更新されているのがのぞましいです。言い換えると適時性とは、データ反映のタイムラグの問題であるともいえます。企業においては例えば、業績データは月次でとりまとめられて更新されている場合、翌月の頭においてはデータがまだ最新化されていないということがあります。この場合、反映までの日数が適時性のレベルを示しているとも言えます。
データ反映の遅延は、企業の業績データだけでなく、顧客が入力したデータが顧客マスターデータにいつ反映されるか、取引先から入手した商品のデータがプロダクトマスターデータにいつ反映されるか等、いたるところで起こりえます。適時性を評価するにあたっては、元となるデータが入力されてから、反映されるべきデータセットにおいてデータ反映の遅延がどの程度、どれぐらいの頻度で起きるかを測定しておくことが大切です。適時性の改善は企業がリアルタイムにデータに基づいて意思決定を行っていくために極めて重要です。


Uniqueness(一意性)
一意性とは、すべてのデータセットにおいて、重複や冗長な情報がないことを意味します。通常IDを付与し、企業内において同一IDを付与されるべきレコードが複数にならないようにコントロールすることで実現します。顧客データは一意性を確保すべきデータの代表格ですが、同じ顧客を指すレコードが企業内に複数存在している場合、どちらのレコードを信用すべきかで混乱が生じます。
一意性を保つためには、IDを付与する役割を持つID管理者やシステムを一つに定めたマネジメントを実施することです。
前述した一貫性の確保の例のように、データ統合を行いマスターデータ管理を実施することが最も基本的な手段です。そして、データクレンジングと重複排除を定期的に行い、一意性の健全さを維持します。


Validity(妥当性)
妥当性は、データが、組織で定義されたビジネスルールと手段に準拠して収集することで、内容と形式の安定がはかられているかを示します。例えば、日付の形式は、「YYYY/MM/DD」で定めてすべて同じフォーマットになっているかどうかです。あるトランザクションにおける取引日は「YYYY/MM/DD」で入っているのに対し、別のデータは「DD/MM/YYYY」で入っており、別のものは、「MM/DD/YY」で作成されているとすると、妥当性に欠けていると考えることができます。
妥当性について考える場合は、データが新規に作成されるポイントで、何で取得されたものによってどのように作られるかについて整理しておくことが重要です。例えば、顧客の好みに関するデータは、異なる質問項目からなる質問票で入手した場合や、オンラインや実店舗での接客、コンタクトセンターでの聞き取り等様々なチャネルで入手した場合では、同じ顧客でも異なる内容・形式での情報が作成されることになるでしょう。入手方法が入り乱れたまま、それぞれ作成された「好み」のデータを等しくシステムへのインプットとして取り扱ってサービスを行う場合、期待通りの結果を得られないかもしれません。


他にも、ISO/IEC 25012(データ品質の評価)においては、「最新性(Currentness)」「信憑性(Credibility)」「追跡可能性(Tracability)」「アクセス可能性(accesibility)」等を含む15の評価軸が定められています。こちらをベースとするのもいいでしょう。DAMAは更に細分化された評価軸として、2020年において65もの軸(Dimensinos)を定めていますので、評価軸に不足や粗さを感じる場合はそれも参照できます。
また、ライフサイエンス業界では、Data Integrity という概念にて、FDA、PIC/S、MHRA等の主要な行政機関や団体からガイダンスが発行されており、その中で、データ品質にかかるALCOA+という原則が定められています。これには、「Attribute(帰属性)」、「Legible(判読性)」、「Contemporaneous(同時性)」「Original(原本性)」等の評価軸が存在し、これらは他業界においても厳格なデータ品質管理を導入したい場合には参考になる部分が多いかと思います。

データ活用の目的とビジネスの状況に照らし合わせた形で、重視すべき評価軸を踏まえて、自社のデータの品質を評価していく指標体系を作成しましょう。ここにおいては、いわゆるSMARTなゴール(Specific、Measurable、Achievable、Relevant、Time-bound)を設定できる形で作るがのよいでしょう。これにより、ビジネスが大切にしているものを捉えることができるメトリクスとなります。


評価のベースライン、データセットとソースの確認

データ指標を定めました。実際にデータ品質を測定して評価したり、また品質に対する改善や維持の有効性を証明するためには、これらの指標をもとに判断の基礎となるベースラインを設定し、改善を行った際にその結果を測定できるようにする必要があります。そして、データのベースラインに関しても見えてきたら、現状の自社のデータセットおよびそもそものインプットとなっているデータソースに適用して、評価を行いましょう。
自社のデータセットに対する定性的および定量的な評価にあたっては様々な分析ツールを使うこともあります。財務データは請求や支払い等の構造化された定量データを扱いますが、例えば、マーケティング部門やコンタクトセンターは、レビュー、評価、およびその他の定性的な非構造化データを扱うことがあるため、それに対応したツールが有用です。
また、このステップにおいては、折角の機会でもあるので業界標準準拠、セキュリティ、データアクセス等の関連ポリシーに基づいた評価をあわせて実施しておくのもいいでしょう。
データソースの評価においては、データソースの信憑性という観点も重要です。収集するデータは、信頼できるデータソースから取得するのが望ましいです。そのため、顧客から直接得たデータ以外においては、そのソースを確認する必要があります。一般的に信頼性の高いデータソースとしては、政府統計、公的機関・団体の調査・統計、アカデミアにおける研究用データセット、業界団体の各種データ等が挙げられます。これらの統計やレポートを参照する場合は、作成日・発表日等のタイムスタンプだけでなく、それらの統計・調査の対象、母集団等がビジネスの目的に合致しているかを確認しておくことが大切です。


品質測定・監視オペレーションの高度化

データセットの評価は常時もしくは定期的に行います。データが品質基準を満たし、ビジネス目標に対して機能していることを確認していくことが重要です。そのため、メトリクスを計測するためのデータ収集や分析、各種ツール、可視化するためのBIツールやダッシュボード、更新の体制や監視オペレーションを整えておくことが肝となります。
また、自動化によるオペレーションの効率化は、品質測定および監視を安定的かつ効率的に実施することを可能にします。データモニタリングの自動化に際しては、通常のシステム運用の自動化のように、RPAやRBA、テスト自動化ツール、運用監視ツール等を用いて行われます。これにより、エンドユーザーが問題を発見する前にデータマネジメント担当部署がデータ品質の問題をプロアクティブにつかむことができ、データ品質の維持に役立つとともに、データ品質に対するユーザーの信頼を醸成するのに貢献します。
データ品質への対処がリアルタイムかつクリティカルなものである場合は、更にSlackのようなコミュニケーションツールと統合し、データ品質のオペレーションに関わるコミュニケーションを迅速なものとする方法もあります。そのような管理システムにおいては、データ内に異常があったというアラートを送信し、データマネジメントチームが即座に問題に反応して修正を行う過程も含めて、関係者にリアルタイムで報告することができます。
エンドユーザーが問題を発見する前に対処するということを述べましたが、エンドユーザーを巻き込んでデータ品質の監視を行う方法もあります。インターネット企業のサービスでは広く取り入れられていますが、データの間違いをレポートするボタンやリンクを設け、通常の監視やオペレーションでは発見しにくい間違いをユーザーに報告してもらい、品質改善のインプットとします。コンシューマー向けのサービスだけでなく、企業内の情報システムにおいても従業員によるデータ品質の通報機能を整備しておくことは有効です。


品質不良データへの対処

データ品質の測定や監視によって、データ品質基準を満たさないデータが検知された際、事前に定義した手続きに沿ってデータの修正を行い、期待する品質に適合させていくことになります。誤ったデータを検知した際に、データ管理者は、なぜどこで、どのようにデータに誤りが入り込んだのかを特定する必要があります。それがデータソースの問題であれ、自社内の処理による誤りであれ、原因を特定しそれに対して恒久的対策をとり、品質の改善を行います。
データの修正は人手での手動修正がどうしても多くなりますが、専用ツール(データクレンジングツール、名寄せツール等)による自動修正や、セマンティックアプローチやNLP的アプローチによる修正、AIによる修正等、高度な方法もあります。前述した筆者の前職における研究所では、AIによるプロダクトカタログの自動修正を行っています。とはいえ、クリティカルなデータや修正内容の信頼度が低い場合は、どうしても人的作業による確認が必要になります。ここにおいては、機械学習モデルの構築における人間参加型(Human In The Loop)のアプローチも参考になるでしょう。


データは組織内でコピーされたり、加工されたり、参照されたりしていくものなので、データ修正を行う場合は、できる限りデータ発生源に近いポイントで修正を行うことです。そうすることで、修正の網羅性をあげ、対象範囲を小さくすることができます。
また、不具合の対処には個々のエラーの修正だけでなく、新たなエラーの発生を防ぐことも含まれます。そのためには、エラーが発生した原因を特定し、原因に対する対処として業務プロセスや情報システムの見直しを行う仕組みも必要になるでしょう。


データ品質管理プロセス規格

ここまで、データ品質管理の指標やオペレーションについて述べましたが、俯瞰して見た場合での大枠のマネジメントサイクルや体制を定めた規格があります。
本記事では詳細は紹介しませんが、ISO/TS 8000-61に、データ品質のプロセス管理の規格があります。当該規格ではデータ品質に関する「計画・管理・保証・改善」のサイクルをコアのプロセスとして導入し、データアーキテクチャやセキュリティ、データ品質管理組織、人材管理についても含みます。本記事で触れた考え方も参考にしていただきつつ、このプロセス管理を導入するというのも本格的な管理に向けたやり方になるかと思います。


データ品質に関する文化の醸成

組織のデータ品質を向上させる最も確実であり、長期的に有用な方法の一つは、データ品質を中心とした文化を構築することです。しかし、組織文化がどう形成されるかに関しては様々な要因が絡んでくるため、「言うは易く行うは難し」な方法です。
例えば、データ品質を改善していくためには、人は間違いを犯すものである、という認識をもつことが重要です。日々の業務の中においても多くのデータが作成されますが、従業員が必要なトレーニングを受けていない場合、あるいはシステムが適切なUIやUXを提供していない場合、データ入力欄は誤解され、あやまったデータが投入される可能性が高くなります。従業員のトレーニングはきちんと行われているか。システムのUIやUXはどうか。そこの投資に対して組織がどれだけ理解を示しているかは大切なポイントです。
加えて、社内、社外を問わず、どのデータソースのデータであっても、データにはエラーやノイズが含まれる可能性がある、という認識も大切です。ゆえにデータ品質を評価し、目的に合致するデータへと修正していく取り組みが必要であることが理解されます。
そのようなデータ品質への理解を醸成していくにあたって、前提としてのデータの民主化も大事なキーワードになります。あらゆる部署、役職の従業員が、会社が共有しているメトリクス、その基となる生データ、そしてBIツールやダッシュボードを活用して、事業の状況やプロジェクトの進捗を把握しているか。そして、確認されたデータとメトリクスに基づいて日々意思決定を行ったり、改善のためのアクションを行っているか。データドリブンな業務と経営が根付いている組織であれば、データ品質に対しての意識も高くなります。データ品質改善に対する取り組みに関しても積極的に理解を示すでしょう。


データ品質における「カセドラルとバザール」

最後に、データ品質管理を実現していくためのガバナンスのモデルについて述べたいと思います。
ここまでデータ品質管理を実践していく上での基本的な考え方、構成要素について述べてきました。データ品質管理は、いわゆるデータガバナンスやデータマネジメントの重要なプラクティスの一つで、企業の事業活動や経営における目的に沿った形で行われる戦略的な取り組みであり、全社を巻き込むものであることを述べました。そのような性質を持つ取り組みはややもすると、トップダウンで実施される重厚長大な管理プロセスとして導入されることがあります。例えば、指標体系の箇所で言及したライフサイエンス業界における、Data Integrity の実現はその内容の重大性から厳格なアプローチに基づいています。ですが、全てのビジネスにおいて同様の手続きと厳格さが要求されるかというとそうではありません。ビジネスによってはそのような管理体系の導入がまったくROIとして見合わないということがあります。
特に現代は、様々な企業とのコラボレーションや社外のデータソースの活用、または消費者や顧客に参加してもらう設計と開発のプロセスに多くのビジネス機会を見出す状況にあります。自社でコントロール可能な範囲をこえた多種多様かつ膨大なデータを取り扱うことが通常になりつつあります。従前のデータ管理が伽藍(カセドラル)を建てるような中央集権的なものであったとしたら、現代のデータを取り巻く環境は活気ある市場(バザール)に似ています。人々がルールや指揮系統が少ない方法でオープンにソフトウェアを開発をし続けるモデルを、エリック・レイモンドが1997年に「Cathedral and Bazzar(カセドラルとバザール)」という書籍にて顕したように、現代のデータ品質管理も自律分散的なアプローチをとるべきかもしれません。
品質測定・管理オペレーションの項目でエンドユーザーによる品質不良の報告について述べました。ビジネス目的への合致、重大性を踏まえながらも自社のデータ活用に関わる顧客や従業員他、様々なステークホルダーが自律的にデータ不良を見つけ、修正し、それを検証を経ながら全体に伝播させ、反映し、整合性が取れるようにマネジメントしていく。そのような新しい適応型の手法が登場してくる可能性があります。データ品質というテーマは、ハーバード大学・ケネディスクールのロナルド・ハイフェッツ教授の言うところの、解き方が分かっている「技術的問題(Technical Problems)」ではなく、自分たちが問題にあわせて変化していく「適応的挑戦(Adaptive Challenges)」として認識されるべきではないかということでもあります。
もちろん、これまでの重厚な管理プロセスも重要であり、有用です。ですが、例えば、プロジェクト管理の体型であるPMBOKが、2021年に第七版となり、それまでのプロセスの詳細な規定から大幅に変わって、プリンシプルと価値のデリバリーにシフトし、体系が軽量化されました。よりイテレイティブなものへと進化を遂げたわけです。同様に、データ品質管理のガバナンスモデルもより軽量なものも許容しつつ、複雑な環境をカバーしうる、多様性を帯びたものになっていくでしょう。


終わりに

以上、データ品質の重要性とその評価・管理について概観してみました。データ品質の向上は一朝一夕にできるものではなく、あるビジネスではうまくいっても、別のビジネスではうまくいかないかもしれません。何事も最初からうまくはいきません。データ品質の整備と管理は繰り返されるイテレイティブなプロセスです。常にこうだというソリューションではなく、歩んでいく道のようなものです。データ品質の意味は時間と共に、また顧客や市場、業界や競合の変容、そして技術環境の進化と共に変わっていきます。継続した議論とアップデート、弛まぬ地道なオペレーションこそが要諦です。
データ品質を管理していくことは簡単なことではありませんが、非常に価値のあることです。データ品質を改善・維持していく努力は、企業を目標に向かって前進させ、競争力とともにレジリエンスも高め、常に顧客や市場と向き合い、社会に対して価値を提供し続ける組織へ成長していくのに役立ちます。データは今後も変化・発展し続け、新たな機会を生み出していきます。データ品質管理を実現することで、企業は、データのポテンシャルを最大限に活かし、未来を切り開いていく存在となるでしょう。


こちらも

データ品質管理も含みながら、いかにデータに基づく経営戦略を実践し、データ駆動型の組織へと脱皮していくか。以下にその要諦をまとめています。こちらもご参照いただければと思います。



この記事が参加している募集

多様性を考える

この記事が気に入ったらサポートをしてみませんか?