名称未設定_1

教師なし学習 クラスタ分析をやる!! データセットを読み込む編

こんにちは!

ぷもんです。


今まで機械学習の分類、回帰と教師あり学習をやってきました
今回から教師なし学習のクラスタ分析をやっていきます。


「機械学習はなんとなく聞いたことあるけど
 教師あり、なし学習?回帰?分類?クラスタ分析?」
という方に向けてまずは軽く用語を説明していきます。


・教師あり学習、教師なし学習とは?

教師あり学習と教師なし学習の違いは
学習するときに答えを見せるか見せないかです。


例えば、以前noteに書いた
アヤメのデータを使った機械学習の分類では

アヤメのがく片の長さ、がく片の幅、花弁の長さ、花弁の幅
のようなデータと
それらのアヤメがsetosa、versicolor、virginicaの3つの品種のうち
どれに当たるのかを
学習させてアヤメの品種を分類しました。

「setosa、versicolor、virginicaの3つの品種のうち
 どれに当たるのか」という正解を見せるのが教師あり学習で
見せないで学習させるのが教師なし学習です。


続いてクラスタ分析についても説明します。

・クラスタ分析とは?

クラスタ分析は教師なし学習で分類に近いものです。


僕が今までやってきたものだけなので少しだけですが
イメージとしてはこんな感じに別れています。

本当はもっといろんな種類がありますが...笑


・クラスタ分析をやってみるデータセットを読み込む編

クラスタ分析の具体的なやり方についてはこちらのサイトを参考にします。


今回はデータセットを読み込むところまでやります。


早速やっていきたいところですが
ANACONDA NAVIGATORと
Jupyter Notebookを使ってやっていくので
まずは、ANACONDA NAVIGATORを使えるようにします。

ANACONDA NAVIGATORを開いて
▶︎をクリックしOpen with Jupyter Notebookをクリックします。


Jupyter Notebookの画面が出てくるので
New→Python 3をクリックします。


準備ができました!

「ANACONDA NAVIGATOR?、Jupyter Notebook?
 初めて聞いたぞ!!ダウンロードできてへんわ!!」
という方は
Anacondaをダウンロードして jupyter notebookを使えるようにして scikit-learnが使えるようにするまで!
というnoteで詳しく書いているのでそちらもどうぞ!!


さて!ANACONDA NAVIGATORとJupyter Notebookの準備もできたので
やっていきます!


まずは、今回使うアヤメのデータセットをダウンロードします。
こちらのサイトからダウンロードします。


サイトにいったらData Folderをクリックします。


さらにiris.dataをクリックするとダウンロードが開始されます。


ダウンロードしたら

jupyter notebookのhomeのUploadから
先ほどダウンロードしたデータをアップロードします。

これでJupyter Notebookでダウンロードしたデータを使えるようになります。


それではデータを見てみます。

import pandas as pd

cust_df = pd.read_csv("iris.data", header=None)
cust_df


pandasインポートしないとこんな感じ


dataをアップロードしないとこんな感じのエラーが出ます。


そしてうまくいくとこんな感じになりました!

上の画面見ると
4の部分にアヤメの品種が表示されています。


はじめに説明したように教師なし学習では
この品種(正解)を使わないので分離します。

del(cust_df[4])
cust_df

こんな感じになりました!


次回はこのデータを使って学習をやっていきます。



機械学習を勉強しているうちに何回もやってきて
慣れてきたと思っていたデータセットの処理で
今回初めてネットからダウンロードしたデータを
Jupyter Notebookにアップロードして使いました。

プログラミングも少しずつ慣れてきたのか
問題に当たってから解決方法を検索する能力も上がってきて
わからないストレスよりも知識欲が満たされる感じが多くなってきて
どんどん新しいことを知ることができるので楽しいです!

いい傾向だと思うので
さらに勉強を続けます。


参考にしたサイトはこちらです!


最後まで読んでいただきありがとうございました!

ぷもんでした!

noteを日々投稿してます! もしいいなと思ってもらえたら サポートしてもらえるとありがたいです。 VRやパソコンの設備投資に使わせていただきます。 ご意見、質問等ありましたらコメントください。 #ぷもん でつぶやいてもらえると励みになります。 一緒に頑張りましょう!