見出し画像

「データの手触り」持ってますか?

こんにちは。

私は普段受託分析会社のデータサイエンティストとして、様々な企業のデータを分析し、そこから価値を提供する仕事をしています。
そんな私がデータ分析をする上で大事にしていることの1つ「データの手触り」についてまとめてみました。

データの手触りって?

データの手触りと聞いてどんなイメージを持ちますか?

堅苦しい言い方をすると、対象とするデータの数値感や変動要因が頭に入っている状態のことを私は「データの手触りがある」と呼んでいます。

みなさん、粘土をこねるイメージを思い浮かべてください。
粘土を触りながら「これくらいの力で押したらこれくらい凹むだろう」「ここをこう引っ張ったらこんな形になるだろう」と感覚のフィードバックを繰り返し得ながら作ると思います。これが手触りです。

画像1

私は、同様の感覚をデータ分析でも持つべきだと思っています
グルーピングしたり、絞り込んだり、複数の軸の関係性を見たりと、様々な加工をしながら分析を進めるわけですが、手触りを持っていれば「このカテゴリが60%くらいになるはず」「減少傾向にあるはず」と小さな仮説を立てながら進める事ができます。仮説がデータ分析で大事であることは言わずもがなですが、この仮説を立てるために手触りが必要なのです。

仮説ドリブンの分析について学びたい人はイシューからはじめよを読むことをおすすめします。

データの手触りが無いと困ること

もう一度粘土を思い浮かべてください。
「自分の手は使わず、他人に対して言葉の指示だけで猫を作ってください」と言われたらどうでしょう。めちゃめちゃ難しいですよね。これが手触りのないデータを触るということです。

データの手触りが無いと2つの点で問題があります

仮説を立てられない

良い仮説は具体的であることが必要条件です。手触りがない状態では分解するべき具体的な軸が分かりません。その結果、手当たりしだいにデータをいじることになり、時間あたりの生産性を大きく落とすことに繋がります。

リスクに気が付けない

データがどんな変動をするのかが分かっていなければ、外部要因によって重要な指標にどんな影響があるのかを想定できません。例えば、人の動きが売上にどんな影響を与えるか理解していなければ、コロナ禍による影響を事前に想像できません。

データの手触りを持つために

データの手触りを持つためには、とにかく1次情報に触れることが大事です。また、すべての過程において、気になったことはメモとして残しておきましょう。

データの生まれる過程に触れる

洋服屋のデータ分析をするなら服屋に足を運ぶべきですし、会社の業務データをするべきならその業務をしている人に話を聞くべきです。これは、どんな集計をしても得ることができない「生」の情報を得ることができます。

生データに触れる

生成したデータを集計せずに抽出し、そのままの形式で眺めます。テーブルデータならExcelが便利です。画像データやテキストデータの場合も同様に眺めていきます。

眺める際には、意味のある順序(時系列、カテゴリ順、値の規模順)に適宜並び替えながら、数値の規模感や傾向に注目し、データの裏側の人間に妄想を巡らせながらみていきます。

人間が持っているニューラルネットワークは結構優秀なので、データのざっくりとした傾向や欠損の度合いなど、データの特徴がなんとなく分かってきます。

時系列の変化に触れる

時系列情報があるのであれば、最初にすべき可視化は時系列の変化の折れ線グラフです。
なぜなら、完全に初めて触るデータだったとしても、全員が予備知識を持っている唯一の軸が「時間」であるからです。季節の変化や年末年始などの長期休暇に注目して、時間軸とデータの関連性を見つけましょう。

絞り込みやグルーピングはしないところから始め、重要な軸の順に区切って見ていきます。また、モニタリングで日々の変化を追っていくことも役に立ちます。

最後に

データの手触りにゴールはありません。いつまでも「もっと!もっと手触りが欲しい!!」と言い続けていたら一向に分析は進みません。

新しい分析を始めたときは短期間で一気にやりきることを意識し、手触りを持ってデータをコネコネしましょう!

この記事が気に入ったらサポートをしてみませんか?