読書備忘録:データ分析失敗事例集
※ このブログのamazonリンクは、アフィリエイトリンクにより収入を得ています。
※ これは私個人の意見であり、会社の公式見解ではありません。
本の概要
読んだ理由
自分のデータ分析が会社の価値に結びついていないケースがあり、他社の失敗事例を読んでみたかった
読んだ際の関連知識
データアナリストとして3年ほど働いていた
初歩の機械学習モデルは実装できる
基礎的な回帰分析は実装できる
全体の感想
失敗事例と似たような現象に陥ったことがあり、共感しながら読めた。「初めに」で書いてあるとおり、臨場感があり自分ごととして楽しめた。
本の備忘録
CASE3 最先端アピールのための最先端プロジェクト
最先端の技術を使いたいという想いからプロジェクトが進行してしまい、データ分析が目的ではなく手段になってしまうというケースです。
CASE9 そんな目的変数で大丈夫か
CTR(click to rate)を目的変数に設定し回帰の機械学習問題として解いたところモデルの精度が悪く、最終的には「良い広告」「悪い広告」などの分類問題として解いた事例。
私個人として機械学習モデルはそこまで触っていないので、大変勉強になりました。
コラム データサイエンティストとしての生き方
分類問題の評価指標はAUCに設定しがちだが、データの不均衡には強くないという説明文。
脳死でAUCを使ってしまいそうなので、今後気をつけます。
CASE14 政治的な数字の応酬
データ分析でチェリーピッキングが行われ、データの活用としては壊滅的な文化が醸成されてしまったというケース。
以下、データの活用に好ましい文化を醸成するための条件について、他の書籍のコメントを見てみます。
A/Bテスト実践ガイド(通称、カバ本)では、オンラインでのコントロール実験を望む組織の原則として「組織は、データに基づいた意思決定を行いたいと考えており、OECを公式化している」(第1章)、という点をあげてます。
また「渋谷駅前で働くデータサイエンティストのブログ」においても、ゴールポストを動かすが如き統計分析の使い方が蔓延していると記述あります。
データドリブンな文化の醸成は、なかなか一筋縄ではいかないようです。
CASE16 スタイルの違いが引き起こした混乱
Rのコーティングスタイルや利用するライブラリの違いでコードが属人化してしまったケース。
こんなこともあるんですね、、、
データサイエンティストの人事事情
データサイエンティストを以下の4タイプに分類しており、わかりやすかったのでメモ。
研究者型
エンジニア型
アナリスト型
エリートビジネスマン型
IT業界以外の大企業から期待される、魔法使いのようなデータサイエンティスト像。一部の超人を除きほとんどいません。
CASE24 最終報告が終わってから集計の仕様が決まる
この記事が気に入ったらサポートをしてみませんか?