見出し画像

なんでもできるぞ!クロス集計!

データの全体感を捕まえるのにも、より分析を深堀する際も使える万能選手です。しかも使い方はシンプル!前回の記事のIF関数とISNULL関数を組合わせるだけでスーパースターに変貌します。

目的

今回はデータの全体感を捕まえることにフォーカスしていきます。具体的にはテーブル定義を&基礎統計を実施する際のクロス集計方法について書いていきます。

テーブル定義:どんなデータが入っているのか、その内使用可能なデータはどのくらい入っているかを確認する作業。

基礎統計:簡単な集計を行うことで、使用可能なデータ群を見つける作業。または、使用不可能なデータ群とその条件を見つける作業。

ステップ1:データを分類し、フラグを立てる

主な目的はデータの取捨選択をするためなので、
そういった観点でデータを分類していきます。
必須分類項目は、「Null」「異常値」「正常値」です。
「正常値」は場合によってはもっと分類してもいいかもしれません。
例えば、日付データなら「2000年以前」「2000年以降」にしたり、
金額データなら「1万円以下」「2万円以上」などなど。
増やしすぎると本末転倒なのでその点は注意してください。

ISNULLとIF関数を使って、データを分類していきます。

画像2

ステップ2:関連性の高いデータとの比較(=クロス集計)

ステップ1でフラグを立てた2つの新たなフィールドを、
それぞれ行と列にいれます。
さらに列に入れたフィールドのカウントを値の部分に入れます。
(別に逆でもいいよ)

すると以下の画像のような表が完成します。
これがクロス集計(又の名を2軸集計)です。

画像2

クロス集計をすると、データ群の傾向が見えてきます。
①「修理日」「作業番号」がNullのもの
②「修理日」「作業番号」が互いに正常値のもの
③それ以外

すると業務の流れも何となく見えてきます。
①修理をしない場合、「修理日」「作業番号」に値は入らない
②修理をした場合、「修理日」に正常値&「作業番号」にデータが入る
③入力ミス、データ連携のエラー、過去データの欠損、その他例外・・・

幸いにも③のデータ群は数が少ないので
何か更に深い分析する際は捨てちゃってOKです。
(全体の0.0007%)

まとめ

このようにクロス集計&IF ,ISNULL関数を使うだけで
どのデータは捨ててOKか、逆に使用可能か
どういった条件でデータに不整合が生じるのか
データからどんな業務の流れが見えてくるか
などなど。

分析をする前に全体感の把握を可能にします。
ほんとはいきなりデータ分析入りたいんですけどね。
料理の根幹は下準備!きっとそれはデータも同じなのです。






この記事が気に入ったらサポートをしてみませんか?