見出し画像

データ利活用の教科書④:データ分析でのPPDACサイクルとは?

読書ノート(114日目)
さて、今日もこちらの本を
紹介していこうと思います。

本書を5回に分け、以下についてを
紹介していこうと思います。
・データ利活用とデータリテラシー
・イシューについて
・リサーチを活用した1次データ収集
・データ分析の手法①
・データ分析の手法②

ということで今日は
・データ分析の手法①
について…

・データ分析は「意思決定に役立たないと意味がない」
・データ分析を通じて「ビジネスの確実性を高める」
・ディシジョンツリーでは期待値×確率で
 期待利得を算出し意思決定に活用する

・データ分析の活用目的(アウトプット)は、
 意思決定を支援するためのレポーティングと
 業務システムの生産性向上(自動化・最適化)のための
 モデル構築・実装に分かれる
・レポーティングではデータに基づいた
 問題解決ステップであるPPDACサイクルが、
 モデル構築・実装ではCRISP-DMの分析ステップが適している

・PPDACサイクル
 Problem(解決すべき課題を明確化し仮説を立てる)
 Plan(どのようなデータを集め分析するかの計画を立てる)
 Data(データを収集し整備する)
 Analysis(データを加工・分析して意味合いを抽出する)
 Conlusion(資料作成・報告、新たな仮説・アイデアの創出)

CRISP-DM
 機械学習など学習モデルの構築を想定したサイクル
 ビジネス課題の理解→データの理解→データの準備→
 モデル構築→評価によって運用に耐えうるモデルを構築し、
 その後は業務システムに実装して展開する

・データ分析には「探索型」「仮説検証型」がある
・探索型は、良い仮説が見つからない際に様々な視点から
 探索的にデータを分析し仮説を考えるアプローチする
・探索型によって、現状仮説・戦略仮説、
 結論の仮説・理由の仮説などの初期仮説を精緻化する

・評価軸を考える際のコツは「悪魔のささやき思考」を活用
 「それが良ければ、後は無視して大丈夫?」という
 「悪魔のささやき思考」で自問自答すると良い

・データの4つの尺度
・質的データ(測定単位が無い、カテゴリーデータ)
 名義尺度:男性を1、女性を2などのデータを区分するためのもの、
      重回帰分析ではダミー変数化する
 順序尺度:満足度などデータに順序関係があり大小関係を比較できるもの
・量的データ(測定単位がある)
 間隔尺度:気温や西暦など、順序のあるデータ間に
      等間隔の差があるもので数値の0が存在しないもの
 比率尺度:金額や人数など、順序のあるデータに等間隔の差があり、
      0が存在するもの

本書の中でも山場でもある
データ分析についてです。
詳しくはまた次回でも紹介を
したいと思います。

データ分析の世界には
PPDACサイクルというのがある
ということを本書で知りました。

本書を読む前は
PDCAサイクルに近いのかな?
などと思っていましたが、
かなり違っていたようです。

データ分析では「仮説が大切」
様々な本で共通して言われていた通り
PPDACの最初のPは
Problem(課題明確化と仮説立て)
ということで、
なるほどー!と感じました。

ところで、
データサイエンティストが
21世紀で最もセクシーな職業である
という論文が発表されたのが
2012年頃ですが、今後も注目を
され続けるのでしょうか…?

その後10年が経ち、この仕事の需要は、雇用主と採用担当者の間でかつてなく高まっている。
 AIはビジネスにおいてますます普及し、あらゆる規模と地域の企業がAIモデルの開発のためにデータサイエンティストの必要性を感じるようになった。インディードの求人数は2019年までに256%増えており、2029年までにほかのどの分野よりも成長するという、米国労働統計局の予測もある。引く手あまたの職は概して給与が高いものだが、カリフォルニアの経験豊富なデータサイエンティストの年収の中央値は、20万ドルに近づいている。

ハーバードビジネスレビュー(2022年8月)

(現在データ分析を学んでいる
 自分にとってのポジショントーク
 になっている気もしますが…)
2029年までの予測でも、アメリカでの
データサイエンティストの需要は
高まり続けそうとのことです。

今年は一つでも多く、
「自己紹介」に繋がる分析実績を
残せるよう精進せねば!
と思った今日この頃です。

それではまた―!😉

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?