![見出し画像](https://assets.st-note.com/production/uploads/images/41035793/rectangle_large_type_2_1848780016efbd7235be04d853399095.jpeg?width=1200)
なんでもできるぞ!クロス集計!
データの全体感を捕まえるのにも、より分析を深堀する際も使える万能選手です。しかも使い方はシンプル!前回の記事のIF関数とISNULL関数を組合わせるだけでスーパースターに変貌します。
目的
今回はデータの全体感を捕まえることにフォーカスしていきます。具体的にはテーブル定義を&基礎統計を実施する際のクロス集計方法について書いていきます。
テーブル定義:どんなデータが入っているのか、その内使用可能なデータはどのくらい入っているかを確認する作業。
基礎統計:簡単な集計を行うことで、使用可能なデータ群を見つける作業。または、使用不可能なデータ群とその条件を見つける作業。
ステップ1:データを分類し、フラグを立てる
主な目的はデータの取捨選択をするためなので、
そういった観点でデータを分類していきます。
必須分類項目は、「Null」「異常値」「正常値」です。
「正常値」は場合によってはもっと分類してもいいかもしれません。
例えば、日付データなら「2000年以前」「2000年以降」にしたり、
金額データなら「1万円以下」「2万円以上」などなど。
増やしすぎると本末転倒なのでその点は注意してください。
ISNULLとIF関数を使って、データを分類していきます。
ステップ2:関連性の高いデータとの比較(=クロス集計)
ステップ1でフラグを立てた2つの新たなフィールドを、
それぞれ行と列にいれます。
さらに列に入れたフィールドのカウントを値の部分に入れます。
(別に逆でもいいよ)
すると以下の画像のような表が完成します。
これがクロス集計(又の名を2軸集計)です。
クロス集計をすると、データ群の傾向が見えてきます。
①「修理日」「作業番号」がNullのもの
②「修理日」「作業番号」が互いに正常値のもの
③それ以外
すると業務の流れも何となく見えてきます。
①修理をしない場合、「修理日」「作業番号」に値は入らない
②修理をした場合、「修理日」に正常値&「作業番号」にデータが入る
③入力ミス、データ連携のエラー、過去データの欠損、その他例外・・・
幸いにも③のデータ群は数が少ないので
何か更に深い分析する際は捨てちゃってOKです。
(全体の0.0007%)
まとめ
このようにクロス集計&IF ,ISNULL関数を使うだけで
どのデータは捨ててOKか、逆に使用可能か
どういった条件でデータに不整合が生じるのか
データからどんな業務の流れが見えてくるか
などなど。
分析をする前に全体感の把握を可能にします。
ほんとはいきなりデータ分析入りたいんですけどね。
料理の根幹は下準備!きっとそれはデータも同じなのです。
この記事が気に入ったらサポートをしてみませんか?