欠損値・外れ値

今日は本格的に統計の内容を勉強しました。

  • 確率変数(データ)には離散型と連続型があること。

  • 大数の法則

  • 正規分布

  • 最尤法

  • ピアソンの積率相関係数

などなどいかにもそれっぽいキーワードを並べてみましたが、三割も理解できていないですが、この講座の重要なのはおそらく、データの前処理をできるかどうかだと思います。そのため、今回の課題(まだ半分しか終わってない)は欠損値の補完をおこなったり、外れ値の処理を行いました。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
score = pd.read_csv('score_missing.csv')
def fill_median(score):
    return score.fillna(score.median())
fill_median(score).sum().sum() #欠損値を中央値で保管する 

def find_outliers(input_array):
    q1,q3=np.percentile(input_array, [25, 75])
    iqr=q3-q1
    lower=q1-1.5*iqr
    upper=q3+1.5*iqr
    print(input_array[(input_array<lower) |(input_array>upper)])
find_outliers(np.array([30,39,-100,29,95,70,67,200,29,1000,56,45,68])) #入力された配列の外れ値を省く 
今回の外れ値は―100 200 1000
 

少しずつ難しくなってきているけど、逃げずに食らいつきます!

この記事が気に入ったらサポートをしてみませんか?