マガジンのカバー画像

DataCamp

4
運営しているクリエイター

記事一覧

【DataCamp】31_Case Study: School Budgeting with Machine Learning in Python

【DataCamp】31_Case Study: School Budgeting with Machine Learning in Python

DrivenDataのBox-Plots for Educationという課題。

データのダウンロードはどうするんだ?と悩みまくりましたが、ググったら出てきました。

Join the competition!を押してログインすると、DATA DOWNLOADが現れます。

やってるうちに目的を忘れてしまいますが、目的は予算の各項目にラベルをつけることです。

ラベルは下記の9つのカテゴリーがあ

もっとみる
【DataCamp】29_Unsupervised Learning in Python①, ②

【DataCamp】29_Unsupervised Learning in Python①, ②

教師なし学習の前半です。

①Clustering for dataset exploration
KMeans法でクラスタリングする。ラベルがあるものはクロス集計表を作成し、精度を確認する。

-アヤメ

まずはアヤメのデータをインポート。微妙にスライドと値が違います…。

がくの長さと花びらの長さの散布図を作成し、クラスターごとに色分けします。

がくの長さは1列目、花びらの長さは3列目です。

もっとみる

【DataCamp】29_Unsupervised Learning in Python③, ④

教師なし学習の後半です。

③Decorrelating your data and dimension reduction次元削減の最も基本的なPCA(主成分分析)について。非相関と次元削減の2ステップ。

非相関最初のステップは非相関。PCAはデータサンプルを軸に沿って回転させる。平均が0になるようにサンプルをシフトさせる。

扱うデータセットはwineとgrains。分かりやすいように特徴量

もっとみる
【DataCamp】22 Exploratory Data Analysis in Python-②Distributions

【DataCamp】22 Exploratory Data Analysis in Python-②Distributions

DataCampのExploratory Data Analysis in Python。①のRead, clean, and validateは今までの復習ですが、②Distributionsから難しくなってきます。

今回は、②Distributionsの内容をまとめてみました。また、Jupyter notebookで実行してみて、うまく動かない部分は補足しました。

HDF5ファイルをインポ

もっとみる