![見出し画像](https://assets.st-note.com/production/uploads/images/116303027/rectangle_large_type_2_0fa1bac4fe318c42a6aa9ee6151d98ec.png?width=800)
データサイエンティストの仮説思考③:データを分類する力(+k-meansの進化版!?、x-meansについて)
読書ノート(128日目)
前回に続いて
今回もこちらの本からです。
・日本政府は「AI戦略2019」にて、
デジタル社会の基礎知識(「読み・書き・そろばん」的な素養)
として、すべての国民が「数理・データサイエンス・AI」に関する
知識を身につけることを目標に掲げている
・データドリブン思考とは、データをもとに物事を考えること
・ビジネスパーソンが身につけるべき
6つのデータリテラシーとは
(1)データを読む力
(2)データを説明する力
(3)データを扱う力
(4)データを分類する力
(5)データから法則を見つける力
(6)データから予測する力
この読書ノートでは全5回に分けて
①データを読む力
②データを説明する力
③データを分類する力
④データから法則を見つける力
⑤データから予測する力
を紹介できればと思います。
では、今日は③データを分類する力
についてです。
・大量のデータを分析する際は
いくつかのグループごとに分けて、特徴や施策を考察する
・そして、データをグループ分けする際は
どういった目的で分類したいかを必ず最初に定めること
(例)国語、社会、数学、理科、体育の成績の個人データがある場合、
・文系と理系を分けて選抜コースを提案したい
→国語と社会、数学と理科で軸を取る
・勉強が得意な生徒を見つけたい
→国語、社会、数学、理科の4教科平均と体育成績で軸を取る
・データを観察して分類する観点を整理するには、ヒートマップが効果的
・散布図でデータを観察する際やグループ化するには
事前にスケールを合わせることが大切
・そのために「データの標準化」をして
各指標を同じように扱えるように変換する
・機械学習で分類するときはk-means法を使用することが多い
・k-means法は初期値によって分類結果が変わる
「k-means法の初期値問題」がある
・そのため、初期値を何度か変えながら試し、
極端な分類結果になっていないかを確認すること
今回は、データの分類についてです。
具体的な手法としてk-means法なども
登場してきたりと、
いよいよデータサイエンティストっぽさが
増してきました!💻
今回の学びは、
データをグループ分けをする前には
どういった目的で分類したいかを
必ず最初に定めること
ということでした。
手法が使えるようになると
仮説や目的を漠然としたまま
つい手法から始めてしまい、
結局何が言いたかったっけ…?と
時間を浪費してしまうことも多々…
「手を動かす前に頭を使うべし」
ということですね!
(自戒の念を込めて…)
(ここからは本書の内容とは異なります)
さて、データのグループ分けである
クラスタリングの手法の代表として
「k-means法」がありますが、
「x-means法」というのも耳にします。
「k-means法」はグループ分けする
クラスタ数を人間があらかじめ決めて
グループ分けをするのですが、
「x-means法」はそれを自動化して
最適なクラスタ数を導き出してくれる
というもの。
こちらの記事で検証がされていましたが
x-means法は簡易的に計算するならば…
ということで
k-means法の方が推奨されていました。
そんな中、もう少し調べていたら
x-means法とは別にg-means法も
あるようです…!
クラスタリング一つを取っても
データ分析の奥が深い…
x-meansもg-meansも既に
Pythonにライブラリがあるようなので、
こちらも前回の時系列データと同様に
来週に時間をつくって
自分で試してみようと思います。
ということで、今日はこの辺で!
それではまた~!😉✨
この記事が気に入ったらサポートをしてみませんか?