見出し画像

【実装】Python機械学習〜実践的前処理〜

本日は機械学習工程のうち、前処理について少し深く学んでみた。

▪️欠損値の処理
・線形補間(df[列名].interpolate()):時系列データの場合に有用。
 欠損値の前後のデータに対して直線を引いて、欠損しない本来の値を予測する
 ことを線形補間と呼ぶ。
 interpolateメソッドは引数がオブジェクト型だと補間しないため、その仕様に
 合わせて、データの型を事前に変更する必要があるので注意を要する。
 (例)object型からfloat型に変更。
・欠損値のある列を正解データとして予測モデルを作り、欠損値の値を予測
 に用いることができる。

▪️外れ値の処理
・分布の中心からデータの距離が遠いデータを外れ値とする。
・マハラノビラス距離:分布の特徴を踏まえた距離であり、外れ値判定に有用。
・四分位範囲(IQR)=第3四分位数ー第1四分位数
・第3四分位数+1.5IQRの値の大きい方の外れ値とする
・第1四分位数ー1.5IQRの値の小さい方の外れ値とする

この記事が気に入ったらサポートをしてみませんか?