見出し画像

Python2年生:7日目

今日はデータのミスをチェックするところから。

pandasでデータがない部分はNaN表示。
欠損値という。

わざと欠損値のあるデータフレームを作る。
欠損値の個数を数える。
欠損値のある行を削除する。

ところまでやってみる。

そしたら次は…
欠損値を平均値で埋める
欠損値を一つ前の値で埋める
(エクセルでやろうと思うと地味にめんどくさいやつだな)

「温度のように連続的に変化する値はあまり上下しないように」と本文にあって、「最近は、乱高下してるけどな…」と思ってしまった。
冬の2月に4月下旬の気温が3日くらいあって、そのあとまた平年並みになってたら普通は「入力ミス」を疑うよね…。そうよね…。

次は…
重複データの削除

まず重複データのデータフレームを作って

重なってるデータの個数を数えて

重複データの2つ目以降を削除する

できた。とはいえ…実際にこれをすることはあまりないんじゃないかなぁ。重複データ=打ち間違いとも限らないしさ。

次は…文字列型のデータを数値に変換する

まずはデータフレームを用意する

データタイプを調べて、文字列データを整数型に変換する

次は、カンマ付き文字列の列データのカンマを削除する

次の章に入るので今日はここまで。

本のリンクはAmazonアソシエイトプログラムを使ってます。

この記事が気に入ったらサポートをしてみませんか?