データサイエンティストの仮説思考③：データを分類する力（＋k-meansの進化版!?、x-meansについて）

2023年9月17日 09:43

読書ノート（128日目）
前回に続いて
今回もこちらの本からです。

・日本政府は「AI戦略2019」にて、
　デジタル社会の基礎知識（「読み・書き・そろばん」的な素養）
　として、すべての国民が「数理・データサイエンス・AI」に関する
　知識を身につけることを目標に掲げている

・データドリブン思考とは、データをもとに物事を考えること

・ビジネスパーソンが身につけるべき
　6つのデータリテラシーとは
　(1)データを読む力
　(2)データを説明する力
　(3)データを扱う力
　(4)データを分類する力
　(5)データから法則を見つける力
　(6)データから予測する力

この読書ノートでは全5回に分けて
①データを読む力
②データを説明する力
③データを分類する力
④データから法則を見つける力
⑤データから予測する力
を紹介できればと思います。

では、今日は③データを分類する力
についてです。

・大量のデータを分析する際は
　いくつかのグループごとに分けて、特徴や施策を考察する
・そして、データをグループ分けする際は
　どういった目的で分類したいかを必ず最初に定めること
（例）国語、社会、数学、理科、体育の成績の個人データがある場合、
　・文系と理系を分けて選抜コースを提案したい
　→国語と社会、数学と理科で軸を取る
　・勉強が得意な生徒を見つけたい
　→国語、社会、数学、理科の4教科平均と体育成績で軸を取る

・データを観察して分類する観点を整理するには、ヒートマップが効果的

・散布図でデータを観察する際やグループ化するには
　事前にスケールを合わせることが大切
・そのために「データの標準化」をして
　各指標を同じように扱えるように変換する

・機械学習で分類するときはk-means法を使用することが多い
・k-means法は初期値によって分類結果が変わる
　「k-means法の初期値問題」がある
・そのため、初期値を何度か変えながら試し、
　極端な分類結果になっていないかを確認すること

今回は、データの分類についてです。
具体的な手法としてk-means法なども
登場してきたりと、
いよいよデータサイエンティストっぽさが
増してきました！💻

今回の学びは、
データをグループ分けをする前には
どういった目的で分類したいかを
必ず最初に定めること
ということでした。

手法が使えるようになると
仮説や目的を漠然としたまま
つい手法から始めてしまい、
結局何が言いたかったっけ…？と
時間を浪費してしまうことも多々…

「手を動かす前に頭を使うべし」
ということですね！
（自戒の念を込めて…）

（ここからは本書の内容とは異なります）
さて、データのグループ分けである
クラスタリングの手法の代表として
「k-means法」がありますが、
「x-means法」というのも耳にします。

「k-means法」はグループ分けする
クラスタ数を人間があらかじめ決めて
グループ分けをするのですが、
「x-means法」はそれを自動化して
最適なクラスタ数を導き出してくれる
というもの。

こちらの記事で検証がされていましたが
x-means法は簡易的に計算するならば…
ということで
k-means法の方が推奨されていました。

そんな中、もう少し調べていたら
x-means法とは別にg-means法も
あるようです…！

クラスタリング一つを取っても
データ分析の奥が深い…
x-meansもg-meansも既に
Pythonにライブラリがあるようなので、
こちらも前回の時系列データと同様に
来週に時間をつくって
自分で試してみようと思います。

ということで、今日はこの辺で！
それではまた～！😉✨

この記事が参加している募集

#ビジネス書が好き

4,140件

#わたしの旅行記

10件

この記事が気に入ったらサポートをしてみませんか？