マガジンのカバー画像

データ前処理(sklearn)

4
運営しているクリエイター

記事一覧

ワンホットエンコード【OneHotEncoder】

・この際にレタス→(1,0,0)、キャベツ→(0,1,0)、ネギ→(0,0,1)のように、それぞれを多次元のベクトルで表現する方法をワンホット表現などと呼びます。
・ワンホット表現を行うことで、変数のすべての値を平等に扱えることが可能になる。
(数字だと大小関係が発生してしまう。)

<手順>

・preprocessing.OneHotEncoder()を用いる。

・ラベルエンコードはOneH

もっとみる

ラベルエンコード【LabelEncoder】

〇ラベルエンコードすることでカテゴリデータの要素を数値に置き換えることが出来る。

〇本来であれば、カテゴリ要素と数値をマッピングする必要がある。
(男性なら0、女性なら1など)
 →カテゴリ数値が膨大な時にマッピングを1から作成すると大変な作業になる。

〇関数を利用することでプログラム作成の省力化を図る。

In [1]: import pandas as pd df = pd.D

もっとみる

データの正規化【Normalization】

→特徴量の値の範囲を一定の範囲に収めるスケーリング。
→機械学習では、主に[0,1]か[-1.1]のはんいないに収めることが多い。
→最大値、最小値があらかじめ決まっている場合、データの分布が一様分布である場合に有効。
・外れ値が存在する場合は、正規化することでデータに偏りが生まれる。

手順①(DataFrameにデータ変換)

 →データの確認を行いやすいように。

# ライブラリのインポート

もっとみる

データの標準化【preprocessing.StandardScaler()】

preprocessing.StandardScaler()
【preprocessing.StandardScaler()の引数】
・引数copy:Trueの場合は元のデータは変換されず、Falseの場合は変換元のデータを使って変換する(デフォルトはTrue)
・引数with_mean: Trueの場合は平均値を0とする。Falseの場合、Y=X/σの変換を施す(デフォルトはTrue)
・引数w

もっとみる