見出し画像

データマネジメント知識体系ガイド(DMBOK) 第二版における「データの廃棄」

𝕏で流れてきたSalesforce Architect Group Osaka の市川洋平氏 (𝕏アカウントはこちら)の以下のスライドに触発されて、DMBOKに記載されているデータ廃棄に関連した記述を読み漁っていました。

このエントリは読み返した内容の中から、気になったところをメモしたものです。

データ廃棄に関連した記述箇所

DMBOKにおいてデータ廃棄については主に以下の箇所に記述されていました。

  • 第1章: データマネジメント

  • 第2章: データ取扱倫理

  • 第6章: データストレージとオプション

  • 第9章: ドキュメントとコンテンツ管理

このうち「第2章: データ取扱倫理」と「第9章 ドキュメントとコンテンツ管理」については、ガバナンス面でのリスク低減のためにデータ破棄について言及している印象です。今回は分析の品質やシステムのパフォーマンス(スループット)に影響する面で、どういった記載がされているか読み解きたいため、「第1章: データマネジメント」と「第6章: データストレージとオプション」に着目しました。

第1章: データマネジメント

この章ではデータマネジメントの原則について記述されています。この章からは以下の様な内容が読み取れました。

データライフサイクルの主要アクティビティには廃棄が含まれる

以下の図は章中に出てくるデータのライフサイクルの概念を説明した図です。

データマネジメント知識体系ガイド 第二版 を元に筆者作成

データマネジメントにあたっては最も重要なデータに焦点を当てて取り組む

多くのデータは使用されない。このことを踏まえて、最も重要なデータに焦点を当て、データのROTを最小にするべき。(ROT: Redundant, Obsolete, Trival)

データ品質をデータライフサイクル全体で管理する

データ品質管理はデータマネジメントの中核である。品質の低いデータは価値を生み出すどころか、コストとリスクを生む。この品質はデータライフサイクルの一環として、管理する計画を立てるべき。

第6章: データストレージとオプション

この章では保管データの価値を最大化するための設計、実装、サポートについて記述されています。この章からは以下の様な内容が読み取れました。

データベースの最大容量とデータ増加ペースを予測する

時間の経過に応じて、データベースをどのくらい、どの程度のスピードで拡張するべきか考える必要がある。拡張しない場合はデータを入れるペースに合わせてデータをアーカイブする必要がある。

データを廃棄する理由

データを廃棄するためには2つの理由がある。1つはデータベースの容量を圧迫し、性能劣化を招く可能性があるから。もう1つは時間の経過によってデータの価値が低下し、場合によっては誤用されるリスクが生じることすらある。

終わりに

なんでデータパージが必要なんだっけ?となったときにいままでの経験で答えられるものの、改めてベストプラクティスに触れることでよりスムーズに答えられるようになれた気がします。なお、DMBOKは幅広い観点で様々な情報が記載されており、読んでいると「この話も気になるな」というものも多く気が散ってしまいがちでした。今後も別のテーマで記載内容を読み漁ってみようと思います。

ちなみにDMBOKはこちらで購入できます。いまはKindle版も出ていて便利ですね。


この記事が気に入ったらサポートをしてみませんか?