読書備忘録:データ分析失敗事例集

※ このブログのamazonリンクは、アフィリエイトリンクにより収入を得ています。
※ これは私個人の意見であり、会社の公式見解ではありません。

本の概要

本書は、第一線で活躍するデータサイエンティストたちが経験した、データ分析プロジェクトの「失敗」をもとに再構成された25の事例が収録されている。これらの臨場感あふれる事例から、データの活用に関わる人たちが、失敗を避けるために何をしてはならないのか、について学びとることができる。

https://amzn.to/4965Kjm

読んだ理由

  • 自分のデータ分析が会社の価値に結びついていないケースがあり、他社の失敗事例を読んでみたかった

読んだ際の関連知識

  • データアナリストとして3年ほど働いていた

  • 初歩の機械学習モデルは実装できる

  • 基礎的な回帰分析は実装できる

全体の感想

失敗事例と似たような現象に陥ったことがあり、共感しながら読めた。「初めに」で書いてあるとおり、臨場感があり自分ごととして楽しめた。

いずれも臨場感あふれる事例ばかりなので、ぜひ実際の現場を想像しながら自分ごととして楽しんでほしい。

初版 P xiii

本の備忘録

CASE3 最先端アピールのための最先端プロジェクト

最先端の技術を使いたいという想いからプロジェクトが進行してしまい、データ分析が目的ではなく手段になってしまうというケースです。

CASE9 そんな目的変数で大丈夫か

CTR(click to rate)を目的変数に設定し回帰の機械学習問題として解いたところモデルの精度が悪く、最終的には「良い広告」「悪い広告」などの分類問題として解いた事例。
私個人として機械学習モデルはそこまで触っていないので、大変勉強になりました。

回帰が必要とされていても、それを分類問題として解釈し、帰着させることは可能なのではないだろうか。

初版 P86

コラム データサイエンティストとしての生き方

分類問題の評価指標はAUCに設定しがちだが、データの不均衡には強くないという説明文。
脳死でAUCを使ってしまいそうなので、今後気をつけます。

分析の精度を示す指標としてAUCは一般的に求められるが、(目的のクラスに属するデータの数が全体のデータに比べて少ない場合)にそれほど強くなく、(データが不均衡であると、精度が低いモデルであってもAUCの値が不当に高く見えてしまう)、面積であるので、ビジネス上で実際に扱う値と関連させて考えることが難しい。

初版 P91

CASE14 政治的な数字の応酬

データ分析でチェリーピッキングが行われ、データの活用としては壊滅的な文化が醸成されてしまったというケース。

データ分析が社内に浸透するにつれ、稟議のイニシアチブをとるために分析ツールの活用は進んだが、一方で通したい意見にそれらしいストーリーと数字を付けて、いかに先に稟議の場で発表するかが競われるようになっていった。結果として、データの活用としては壊滅的な文化が醸成されてしまった。

初版 P142

現実のデータ分析では様々なことを仮定せざるを得ないが、恣意的にデータや分析手法に手を加えたり、分析結果の切り取りを行ったりすれば、どのようなストーリーであってもほぼすべてが正当化できてしまう、という問題が発生することを忘れてはならない。

初版 P143

以下、データの活用に好ましい文化を醸成するための条件について、他の書籍のコメントを見てみます。

A/Bテスト実践ガイド(通称、カバ本)では、オンラインでのコントロール実験を望む組織の原則として「組織は、データに基づいた意思決定を行いたいと考えており、OECを公式化している」(第1章)、という点をあげてます。

また「渋谷駅前で働くデータサイエンティストのブログ」においても、ゴールポストを動かすが如き統計分析の使い方が蔓延していると記述あります。

ただ、そのように「ゴールポストの方を動かす」が如き統計分析の使い方*4が蔓延している科学研究分野も少なくない*5ので、どちらかというと基礎科学研究としてのサイエンスの方こそしっかりしろと叱咤したい感もあるのが嘆かわしいところです。

https://tjo.hatenablog.com/entry/2023/09/29/170000

データドリブンな文化の醸成は、なかなか一筋縄ではいかないようです。

CASE16 スタイルの違いが引き起こした混乱

Rのコーティングスタイルや利用するライブラリの違いでコードが属人化してしまったケース。
こんなこともあるんですね、、、

データサイエンティストの人事事情

データサイエンティストを以下の4タイプに分類しており、わかりやすかったのでメモ。

  1. 研究者型

  2. エンジニア型

  3. アナリスト型

  4. エリートビジネスマン型
    IT業界以外の大企業から期待される、魔法使いのようなデータサイエンティスト像。一部の超人を除きほとんどいません。

CASE24 最終報告が終わってから集計の仕様が決まる

ふわっとした状態で案件を受けない。断る勇気も大事。

初版 P238

この記事が気に入ったらサポートをしてみませんか?