データ整備のアンチパターン

データ整備のパフォーマンスが上がらない理由を考える

データ整備は「データを使いやすくする」役割であり、そのパフォーマンスを定量的にかつ客観的に計測することは非常に困難である。だが困難だからといって課題を把握もせずに放置すればパフォーマンスが上がるはずもない。

そこで、整備のパフォーマンスに大きく悪影響を及ぼしているだろうと思われる要因をアンチパターンとして考察する。今回はまず「データ整備を認識しない」と「 データ整備をやりすぎる」の場合を取り上げる。

前提として、「データ整備をやらない」は「データ活用をやらない」と実質的に同義なのでここでは考えない。また、本記事および筆者のいう「データ整備とは何か」についてはこちらのスライドを参考のこと。

データ整備を認識しない

データ整備はデータ活用を行う上で必ず行われている。しかしこのことを認識していない企業は少なくない。

データ整備を誰も積極的にやらないと売上ですらまともに把握できなくなるが、認識すらしていなければデータ整備を行なわないことに原因があるのかもしれないと気づくこともできない。

さらに、認識されていないと他の仕事のついでになってしまい、問題に気づいた人が取り組んだとしても仕事として認識されていないので評価にも繋がらず損をしてしまう。

そうなれば行きつく先は問題が起きたらひとまずその場をしのぐ、の繰り返しだ。

つまり「データ整備を認識しないこと」はデータ整備の最大のアンチパターンである。

データ整備をやりすぎる

データ整備を認識しているとして、次に見られる問題はデータ整備をやりすぎていることだ。特に「整理」において顕著にみられる。整ってはいるが誰も使わないテーブル、カラム、ダッシュボードが乱立している企業は多いのではないか。なおインフラについては考慮外。

大量の使わないデータを作るために時間や金を奪われることだけが問題ではない。データを維持管理するための時間や金も必要になる。

さらに、気づきづらい問題として本当に必要なデータを見つけるのが困難になってしまうことがある。使いたいのはユーザーの一覧なのに、検索したら似たような名前のテーブルが大量に出てきて目的のテーブルが見つからずに苦労したことがある人は多いだろう。

悩ましいのは、まったくやらないというわけにはいかず、どれぐらいやれば良いのかの適切な評価が難しいことだ。

それ故にとりあえずやっておくことが正当化されてしまう。やることを絞って必要になったら準備しようとして「なぜこのデータがないのか」と怒られるよりは、先にたくさん作っておくことに会社がリソースを出してくれるならばわざわざ怒られるリスクをの担当者が背負う必要はない。

しかし、「あればだれか使うだろう」とたくさん作っても使われるのはそのうちのほんの一部でしかない。「費やした時間やコストに見合うだけのアウトプットが得られたと言えるのか」や「他に優先するべきことは無いのか」は担当者もマネジメントも常に気にしておくべきだ。

同様に「抽出」でも依頼にとにかく対応しようとすればやはりやりすぎになる。これは依頼者とのコミュニケーションと含めたやり方の問題でもあるので別に取り上げる。

また、「品質管理」や(メタデータの)「記録」もやろうと思えばいくらでも時間が使えるが、無暗にやっても整理と同様に恩恵が少ない。まだ取り組んでいる企業が少ないため顕在化していないだけで、遠からず問題として話題になってくるだろう。

まだあるデータ整備のアンチパターン

今回取り上げたのは両極端の場合であるが、この2つの間にはさらに実務上で発生する問題が存在する。次回はそちらを考える。

データ活用の中でもデータ整備がまだまだ始まったばかりであることを考慮すれば仕方ない面はあると思うが、この2つのどちらかで引っかかる組織がほとんどなのではないか。問題だと思っていなかったことが実は問題なのでは、と考えるきっかけになれば幸いだ。


この記事が気に入ったらサポートをしてみませんか?