見出し画像

数のヨミカキ日記 #5 2022年2月22日(火)

「不明」のミカタや処理の重要性を認識した作業

【本日のデータ関連業務】

A社戦略会議での発表用データ分析のテーマ探し
概要:CRM関連の分析を行うための、顧客属性の確認など
利用ツール:通販基幹システムの集計ツール、エクセル
所要時間:4~5時間(前日の準備作業も含む)

【作業概要】

●基幹システムでの集計作業
 定期顧客数の推移を定期顧客の属性(年令、性別、初回注文手段、初回決済方法など)別に集計
●基幹システムからのデータ取得
●データの再加工
 集計結果をエクセルで加工
 カテゴリの切り直しなどの再集計
●集計結果の検討
 傾向の読み取り
 集計結果の考察、新たな仮説作り、レポートのシナリオの検討
 ⇒使えそうな集計結果を探し、本番用の集計項目をリストアップ、まとめ方をイメージ

【作業についての所感など】

 不明の扱いに苦慮。
 今回の対象は定期顧客のデータであるが、性別や生年月日など基本項目に不備・不明が多い。5年くらい前まで、データの取得方法が悪く、現在の長期継続顧客のデータ不備も少なくない。データの追加収集や訂正もなされていないので、集計結果のヨミカタには細心の注意が必要。
 データチェックを進めると、生年月日データの不備は深刻なことが分かった。年令に換算すると、10台未満と100歳以上が頻発。中には200歳越えの登録すら存在。

 不明の取り扱い方針の検討にあたり、「不明」の周辺には、データのヨミカタとカキカタの留意事項が散らばっていることを再認識。詳細は別な機会に譲るが、「不明」には以下のような問題が隠れている。

1)調査・データ取得の失敗
 「不明」が多いという事態は、集計・分析以前の段階で、失敗やミスが発生しているケースも多い。
2)「不明」の処理は個々が判断
 「不明」をどのように扱うかは、集計・分析を行う人間の判断に委ねられる。例えば、異常値を「不明」として扱う場合(データ修正を行う場合)、その判定は分析者(集計者)の独自の判断となる。これは、分析者の都合のいいように「不明」を利用することも可能であることを意味する。
3)「不明」により結果の評価が難しくなる
 「不明」が多い場合、分析結果のヨミカタが難しくなる。
例えば、「2つの商品AとBのどちらを好むか?」という調査結果が、A33%、B30%、不明37%であった場合、Aが好まれていると判断することは難しい。

 一方で、「不明」の理由や傾向を考えると、思わぬ発見につながる場合もある。

【つぶやき】

 20年以上前に携わったアンケート調査は、ほとんどが紙の調査票を使ったものであった。今のネットアンケートと比べ、かなり煩雑な作業が多かった反面、様々な経験を積むことができた。
 特に、アンケート結果のチェック作業は、とても貴重な体験であり、現在のデータ収集、検証、分析、考察に非常に役立っている。
 貴重な経験には「不明」の取り扱い(処理)の失敗も含まれている。当時の上司から何度も叱られ、チームのメンバーには多大なる迷惑もかけたが、今となっては良い思い出でもある。

この記事が気に入ったらサポートをしてみませんか?