データクリーニング、そもそもしたくないので、機械判読可読なフォーマットを

データ利活用が進まない理由、そもそもデータが蓄積されてないから、そして蓄積されたとして、すぐに分析や可視化に使える状態になってないから。

分析や加工に使える状態にすることをデータクリーニングといいます。ちょうど例示に以下。

一般にデータ分析プロジェクトの工数の8割はデータ加工にかかるといわれてますが、こうしたデータが大半だから。1つや2つなら手作業でいいけれど、こうしたデータが多くなると大量に処理するプログラムを書いたり、更にデータごとに書式が違ったりした日にはもう一大作業どころでなく・・・。
そもそもデータクリーニングしなくて済むのがベスト!

で、中央官庁から出ているのが、機械判読可読なフォーマット、という統一ルール!

データ整備の基本、フォーマットに関する統一ルールです。
データ利活用にかかわる方は必須です。先進企業は当たり前にこの形に整備しています。なぜならこのルールは先進企業や大学からの要望を受けて、ようやく取りまとめられたものだから。
委託する側は、これを守れないデータを渡してもデータサイエンティストに相手にされないか特別料金を取られると思ってほしい・・・。

そうでないフツーの業務をしている方も「神エクセル」をやめにしませんか。受け取る方が苦労するでしょう、普通の業務でも。8桁の数値を1桁ごと別セルに入れさせるとか、逆に1つのセルに空白区切りで情報を詰め込んだり・・・。

DXが、データ利活用が、という話をする前に、社内外に流通するExcelデータの整備から考えていきましょう。
本当に日本の基準になってほしい、と切実に思いますです。

この記事が気に入ったらサポートをしてみませんか?