![見出し画像](https://assets.st-note.com/production/uploads/images/116428454/rectangle_large_type_2_228e8c28d87ec8e016d487ee4832c131.png?width=800)
データサイエンティストの仮説思考④:データから法則を見つける力を身につける(+過学習を解決する方法について)
読書ノート(129日目)
前回に続いて
今回もこちらの本からです。
・日本政府は「AI戦略2019」にて、
デジタル社会の基礎知識(「読み・書き・そろばん」的な素養)
として、すべての国民が「数理・データサイエンス・AI」に関する
知識を身につけることを目標に掲げている
・データドリブン思考とは、データをもとに物事を考えること
・ビジネスパーソンが身につけるべき
6つのデータリテラシーとは
(1)データを読む力
(2)データを説明する力
(3)データを扱う力
(4)データを分類する力
(5)データから法則を見つける力
(6)データから予測する力
この読書ノートでは全5回に分けて
①データを読む力
②データを説明する力
③データを分類する力
④データから法則を見つける力
⑤データから予測する力
を紹介できればと思います。
では、今日は④データから法則を見つける力
についてです。
・判別問題の場合、決定木モデルなどを活用して結果を推測できる
・決定木モデルは直感的に理解しやすいモデルとも言われている
・決定木モデルの活用でのサンプル問題として
沈没したタイタニック号の生存者の特徴を推測する問題が有名
・判別問題の精度の評価方法
・誤検知を少なくしたい場合は「適合率」で評価し、
見逃しを少なくしたい場合は「再現率」で評価する
今回は「データから法則を見つける」
についてでした。
適合率と再現率は、
既に多くの方々が分かりやすい記事を
書いて下さっているので
詳細はこちらをご覧頂ければと思います。
![](https://assets.st-note.com/img/1694945598466-35GDxj3axY.png?width=800)
![](https://assets.st-note.com/img/1694945552711-OH0EUmt9Sc.png?width=800)
また、決定木モデルはPythonを活用すると
数行のスクリプト入力で分析でき図化まで
してくれるので便利なのと、
決定木モデルは(いかにも!?)
データサイエンティスト感が強まる気がして
僕自身は好きな手法ですし
使えるときは積極的に使いたいと思っています。
ただ、本書では「紙と鉛筆で身につける」
というタイトルが示す通り、決定木モデルも
Pythonで自動で計算させるのではなく、
その分岐となる法則を自分自身で考えてみよう!
という点で凄く学びがあり興味深かったです。
決定木モデルは、
分類の推測確率がなるべく100%になる
法則を見つけて分岐が作られていたという
基本的なことに気付くことができましたし、
もしデータ分析にご興味がある方が
いらっしゃいましたら…
本書のP171のクイズ6
「誰がプレミアムビールを購入しそうか」
がオススメだと感じました。
(ここからは本書の内容とは異なります)
データ分析をしていて陥りやすい罠は
いつくかあるのですが、その罠の一つに
「過学習」があると思っています。
![](https://assets.st-note.com/img/1694945864878-JKV85f42je.png?width=800)
学習データでの予測精度を
高めようとするあまり、
学習データ以外の(未知や新たな)
データの予測精度が落ちてしまう…
ということで今までは
学習データでの予測精度と
検証データでの予測精度の差を確認し
その差が小さければ良いのでは?とか、
また多くの場合は
交差検証法(クロスバリデーション)
を使って対処していました。
そんな中…
「正則化」という過学習の解決法があると
いうことを知り、少し調べていました。
(データサイエンティストを目指していながら
今さら感が満載ではあるのですが…)
![](https://assets.st-note.com/img/1694946505635-r9DCo0SR5D.png?width=800)
正則化について理解を深めようと
いくつかのサイトやChatGPTに聞いて
リッジ回帰・ラッソ回帰のこと、
説明変数を思い切って減らしたり、
偏回帰係数を最適化する手法
ということは理解ができたのですが、
正則化の解説でほぼ毎回出てくる
以下の図の理解がさっぱり…(?_?)
ということで、
リッジ回帰・ラッソ回帰をPythonで実装
することとは別に、そもそも正則化とは?
の理解を深めないとなぁと
実感をした今日この頃です…😂
![](https://assets.st-note.com/img/1694949333607-coclRH4Y2t.png?width=800)
データ分析の世界は学べば学ぶほど
自分のスキルと知識不足を感じることが
多いのですが、
このような読書ノートに書き残すことで
少しずつでも確実に成長しているはず!
と、そんな気もしています。
年内中~2024年前半までの一つの目標として
(今の自分で対応できる範囲にはなりますが)
簡単なデータ分析をパッケージ化して
ランサーズやクラウドワークスで販売が
できるまでになりたいと思っています。
分析パッケージにどのような分析を
メニュー化するか、納期や価格などは
既に販売されている分析パッケージも参考に
これから考えていこうと思います。
(分析の納期は数日~1週間、
価格は1万円~5万円が相場みたいですね)
とうことで、今日はこの辺で!
今日が3連休最終日の方々もお仕事の方々も
素敵な日をお過ごしくださいませ😄
それではまたー!😉✨
この記事が気に入ったらサポートをしてみませんか?