- 運営しているクリエイター
記事一覧
【DataCamp】31_Case Study: School Budgeting with Machine Learning in Python
DrivenDataのBox-Plots for Educationという課題。
データのダウンロードはどうするんだ?と悩みまくりましたが、ググったら出てきました。
Join the competition!を押してログインすると、DATA DOWNLOADが現れます。
やってるうちに目的を忘れてしまいますが、目的は予算の各項目にラベルをつけることです。
ラベルは下記の9つのカテゴリーがあ
【DataCamp】29_Unsupervised Learning in Python①, ②
教師なし学習の前半です。
①Clustering for dataset exploration
KMeans法でクラスタリングする。ラベルがあるものはクロス集計表を作成し、精度を確認する。
-アヤメ
まずはアヤメのデータをインポート。微妙にスライドと値が違います…。
がくの長さと花びらの長さの散布図を作成し、クラスターごとに色分けします。
がくの長さは1列目、花びらの長さは3列目です。
【DataCamp】29_Unsupervised Learning in Python③, ④
教師なし学習の後半です。
③Decorrelating your data and dimension reduction次元削減の最も基本的なPCA(主成分分析)について。非相関と次元削減の2ステップ。
非相関最初のステップは非相関。PCAはデータサンプルを軸に沿って回転させる。平均が0になるようにサンプルをシフトさせる。
扱うデータセットはwineとgrains。分かりやすいように特徴量
【DataCamp】22 Exploratory Data Analysis in Python-②Distributions
DataCampのExploratory Data Analysis in Python。①のRead, clean, and validateは今までの復習ですが、②Distributionsから難しくなってきます。
今回は、②Distributionsの内容をまとめてみました。また、Jupyter notebookで実行してみて、うまく動かない部分は補足しました。
HDF5ファイルをインポ