見出し画像

データ分析者の憂鬱 | なぜデータ分析は大変か?

突然ですがデータ分析って本当に大変なお仕事なんです!!!

日頃から様々なビジネスでデータ分析に携わる中で、いつかデータ分析の大変さを体系化したいと思っていたので、勝手ながら全データ分析者の気持ちを代弁して何が大変なのかを分かりやすくまとめてみました。

このnoteを読んだ皆様が、データ分析者の方々の大変さを少しでも理解いただけると大変嬉しいです🙏🙏🙏

そもそもデータ分析って何してるの?

データ分析と聞くとAIや機械学習を思い浮かべる人が多いと思いますが、それはデータ分析の一部であり、実際はかなり幅広い範囲に及んでいます。Excelでデータ集計するのも立派なデータ分析ですしね。

企業やそれぞれの取り組み内容によってデータ量や難易度は異なりますが、データ分析とはおおよそ以下の業務になります。

①データを収集して、加工可能な状態に整理する
②整理したデータを集計する
③集計した結果からファクトやインサイトを得る

具体的な例としては以下のような内容になります。

・営業メンバーごとのパフォーマンスの差を計測する
・自社システムデータを収集・集計して、ビジネスの状況を見える化する
・過去の購買データから購入頻度の高いユーザーを特定する
・システムのアクセスデータから不正なアクセスを検出する
・今月のビジネスの実績から来月の必要な人員数を予測する

データ分析業務の概要をご理解頂いたところ、本題の「データ分析はなぜ大変なのか」に移りたいと思います。

その1:分析結果は正しいことが当たり前

データ分析のアウトプットは正確な結果であることが求められます。
例えば、本来1億円のはずの売上が集計結果では10億円と表示されて、その前提で大規模な投資をしてしまったら大変なことになりますよね。
これくらい極端なズレであれば気付く事が多いのですが、差分が小さいと誰も気付かずにコトが進んでしまうケースも多く、後々発覚した時に「なんで気付かなかったんだ!?」みたいな事態に発展します。

こういった事情もあり、データ分析者は100点を出し続けることが当然で、むしろ99点以下だと怒られると構造になっているんです😂

その2:100点でも足りていないことがある

100点の正確な分析結果を出しても、以下のような追加のリクエストを頂くことが多々あります。

こういった軸で分析した方がいいんじゃない?
もっと細かい軸で見れない?
このデータも組み合わせて見れる良さそう

データが見える化されたら、さらに細かく見たくなるのは人間の性ですね。
もちろんビジネス観点では良いことではあるのですが、内心このデータ出すの結構大変だっただけどな、、、😢と思いながら次の作業に取り掛かることになるわけです。

その3:ビジネス要件とシステム要件の壁

ここではデータ分析のプロセスに関する大変さを解説したいと思います。

多くのケースでは分析対象となるデータの多くはシステムの中に入っています。システム=バケツ、データ=水とイメージしてもらうと分かりやすいともいます。

画像1


データ分析者はバケツに入った水の中から、今必要な水だけを引き出す作業をするわけなのですが、ここでビジネス要件とシステム要件の壁が立ちはだかります。

画像2

上記の図で表現したように、データにはすべてのビジネス要件とシステム要件が落ちてきます。必然的にデータ分析者はビジネスとシステム、双方への理解が必要となります。

ビジネス要件:優良顧客という概念の定義(購入回数が2回以上、など)
システム要件:優良顧客を集計するために必要なデータの定義(テーブル名、項目名、登録タイミングなど)

ここで起こりがちなのが、ビジネス要件とシステム要件の差分を吸収するという作業です。多くのシステムはサービス提供に必要な機能を実装することを主眼に作られており、将来的なデータ分析まで考慮されている事は稀です。そのため、システムが動くという観点では全く問題ないが、データ分析を行うとするとものすごく大変ということがよく発生します。

例えば、出勤簿を担当者ごとにExcelファイルを分けて管理している場合、業務運営上は問題ないですが、いざデータ集計しようとするとファイルを集約するのが大変ですよね?その数倍、数十倍複雑な状態になっていると思ってください。

この手の作業を行うためには、複雑怪奇なビジネスロジックを紐解いていく事になるため、作業自体がものすごい大変ということに加えて、こういった大変さをなかなか理解してもらえないというのが一番辛いところだったりします😭
特にビジネスのスピードを優先して突貫工事で構築したシステムの場合、ビジネスロジックで無茶している事が多く、後々データ分析者が涙を流しながら解析するとケースをよく見かけます、、、

その4:正しくないデータから正しい結果をつくる

データ分析者を最も苦しめる作業、それはデータクレンジングです。

データクレンジングとは、データベースなどに保存されているデータの中から、重複や誤記、表記の揺れなどを探し出し、削除や修正、正規化などを行ってデータの品質を高めること。
- IT用語辞典 e-Words

意外に思われる方もいるかもしれません、システムに入っているデータには往々にして不正なデータが入っているものです。

■不正なデータの例
・システムのバグで不正なデータが登録された
・本来登録されているべきデータが欠損している
・イレギュラーな対応で手動でデータを書き換えた
・設計書にないコード値が登録されている

データ分析の過程で、こういった不正なデータを除外、もしくは修正して、結果の正しさを担保する必要がありますが、この作業が本当に大半なんです、、、
大規模なデータ分析では、集計作業よりもデータクレンジング作業に多くの時間が割かれることがほとんどです。10年単位のビジネスデータ分析となると、当然その間にビジネスモデルやサービスも変化しているため、ビジネスの歴史を紐付きながら、現代のニーズに適した形に変換するという壮大な作業になってきます。

データ定義は個々のビジネス・システムに寄ってバラバラであるため、データクレンジングの型化は難しく、長きにわたりデータ分析者を悩ませる要因となっています😩

その5:幅広い知識とスキルが必要

データ分析者は、大きく以下の3つの経験・スキルが求められます。

■データの理解
各オブジェクトの概念、メタデータ、テーブル定義、統計学など

■データソースの理解

DB、各種クラウドサービス、jsonなど

■データテクノロジーの理解
Excel、SQL、python、API、BI、ETL、MLなど

ひと昔前までは自社システムのデータベースに入っている構造化データ(表形式のデータ)が全てでしたが、昨今ではクラウドの普及や非構造化データ(表形式ではないデータ)が増えてことでデータが分散しており、それぞれのデータソースに対する理解が必要になっています。

画像3

データテクノロジーに関しても進化ものすごい早いため、技術の入れ替わりが激しく、常に最新のテクノロジーへのキャッチアップが求められます。(1年くらいで全く使われなくなる技術もザラにあります)

要は何が言いたかというと、常に変化し続けるビジネスの状況やテクノロジーの進化に付いて行くために、インプットを止めてはいけないという事なのです!データは生物なのでインプットを止めた瞬間から腐り始めてしまいます☠️

さいごに

ここまで長々とデータ分析者の大変さを解説しましたが、みなさんにこの苦労が伝わりましたでしょうか?笑

これだけ大変な仕事ではありますが、昨今のDXの波もあり、データ分析者のニーズは一段と高まって行くと思います。そしてデータ分析者に求められる内容もさらに高度化していくはずです。
データ分析に携わっているみなさんは引き続き頑張りましょう💪そしてそれ以外のみなさんはデータ分析者の方にぜひ一声感謝の言葉をかけてあげてください🙏

長文にも関わらず、最後までお購読頂きありがとうございました!
ぜひTwitterもフォローお願いいたします🐤

CloudFitではデータ分析の支援も行なっています。データ分析でお困りの方はぜひお問い合わせ下さい。📩


この記事が気に入ったらサポートをしてみませんか?