データ解析の実務プロセス入門【難しい理論を使うだけがデータ分析じゃない】
はじめに
こんにちわ、データサイエンスをやっているなかなです。
今回はあんちべ 著「データ解析の実務プロセス入門」を紹介します。 この本では実務におけるデータ解析がどのような手順で行われているかについて語られています。
データ解析と言うと、どのようなことが思いうかぶでしょうか。
頭のいい人が全く知らない議論を使って大量のデータを処理している、 なんとなくそんなイメージがありますよね。
なので実際に大量のデータを持っているわけでもなく、最新の理論も知らない自分がどのようにデータ分析を行えばいいかっていうのはあまりイメージがつきにくいです。
しかし、実際にデータ分析に近いような業務はほぼ全員の人が日頃から行なっていると思います。 例えば回帰直線を引くといったようなものもデータ分析の一部。
この本はデータ分析を行うときの難しい情報などを紹介する本ではありません。 データ分析の実務において、 それぞれの手順における目的を明らかにしてそのアウトプットの精度を上げる方法を紹介している本になります。
なので、難しい理論などはわからずとも普段からデータから何か情報を抜け出そうとしている人に役に立つ本かと思います。
例えばアンケートを取るときにはこういう項目を入れた方がいい、 だとかこういう項目にしたら意味が二重に取れてしまうだとかそういう細かいアドバイスもあります。
ちなみに、あんちべさん本人がnoteにこの本に関する記事を寄稿しています。
こんな人におすすめ
- 普段からデータを扱って問題解決を扱う人
- データ分析の理論ではなくそのプロセスを知りたい人
こんな内容
どうやってデータを集めるの?
データ分析を行うときにおけるいいデータとはどういうデータでしょうか?
とにかく大量のデータ があればいいのでしょうか?
もちろんNoですね。どのようなデータが良いかは明らかにしたい仮説によって変わってきます。
またデータを扱う時に気にしなければいけないのはそのデータの素性です。クライアントから与えられたデータを鵜呑みにしてしまっては行きません。
そのデータはいつ、誰が、誰向けに、どのような目的で集められたものなんでしょうか。 それを知らないことにはデータにバイアスがかかっている可能性があるので注意しましょう。
その他にもアンケートの取り方やデータのフォーマットなどについて細かい説明があります。
どうやってデータを分析するの?
データを集めたところで自分がそこの専門分野じゃないからいまいちわからないな...となってしまうことも時にはあるでしょう。
そんな時に行うのが探索的データ分析です。 言葉としては少し難しくなっていますが普通にしっかり分析する事と思っていただければ良いかと思います。
例えば相関分析などを行う。そうすることで A と B が相関があるといった新たな知識が得られる。このようなことを繰り返していくことで、専門知識がなくともデータから知識を得ていく事ができます。
ここで非常に重要なのは専門分野の知識がなくとも、 データ分析自体は可能だということです。あらかじめ自分で考えた問題設計に従って、様々なデータの相関関係を可視化していくことで、新たなデータな一面が見えてくるでしょう。
ここの分析手法では、一般的には常識的なことも可視化していくことも重要です。もしかしたら常識的に考えられていることが、 実はただの思い込みだったなんてこともあるかもしれないので。
データ分析の実務ロールプレイ
この本で一番面白かったのは、 最終章に載っているデータ分析のロールプレイです。このロールプレイでは、ネットゲームのログイン数のデータを与えられた時にどのような分析を行なっているかを手順を追って説明しています。
実際にデータを可視化していくことで、クライアントからそもそもが与えられていた問題設定が間違っていたことや、そもそもの問題の本質が見えている過程が述べられています。 非常に実践的な内容で、データ分析のイメージが湧く箇所です。この部分だけでも正直この本は読む価値があると思いました。
終わりに
では理論的なことは述べられておらずとにかくデータ分析行うときのプロセスのみが説明されています。 最終章では架空のキャラクターが実際にデータ分析を行っていく過程が描かれています。
この本を流し読みしていくと、データ分析を行うというのはどういうことなのかのイメージが湧くと思います。 今のところデータ分析の実務プロセスを、ここまで細かく説明した本というのは自分は見たことがないですね。
この記事が気に入ったらサポートをしてみませんか?