![見出し画像](https://assets.st-note.com/production/uploads/images/132330451/rectangle_large_type_2_6990ff00313872a351bdb7b5dd498df6.jpeg?width=800)
Python2年生:7日目
今日はデータのミスをチェックするところから。
pandasでデータがない部分はNaN表示。
欠損値という。
わざと欠損値のあるデータフレームを作る。
欠損値の個数を数える。
欠損値のある行を削除する。
ところまでやってみる。
![](https://assets.st-note.com/img/1709101593046-C8e1uk3BCb.jpg?width=800)
そしたら次は…
欠損値を平均値で埋める
欠損値を一つ前の値で埋める
(エクセルでやろうと思うと地味にめんどくさいやつだな)
![](https://assets.st-note.com/img/1709102104188-vImvzycqDo.jpg?width=800)
「温度のように連続的に変化する値はあまり上下しないように」と本文にあって、「最近は、乱高下してるけどな…」と思ってしまった。
冬の2月に4月下旬の気温が3日くらいあって、そのあとまた平年並みになってたら普通は「入力ミス」を疑うよね…。そうよね…。
次は…
重複データの削除
まず重複データのデータフレームを作って
![](https://assets.st-note.com/img/1709102972575-uCpmZ4opYn.jpg?width=800)
重なってるデータの個数を数えて
![](https://assets.st-note.com/img/1709103091637-CYgotpMY5O.jpg?width=800)
重複データの2つ目以降を削除する
![](https://assets.st-note.com/img/1709103679354-UmC1ttTnSb.jpg?width=800)
できた。とはいえ…実際にこれをすることはあまりないんじゃないかなぁ。重複データ=打ち間違いとも限らないしさ。
次は…文字列型のデータを数値に変換する
まずはデータフレームを用意する
![](https://assets.st-note.com/img/1709104970468-kwMXdSPwyR.jpg?width=800)
データタイプを調べて、文字列データを整数型に変換する
![](https://assets.st-note.com/img/1709106059615-7CI77nQj06.jpg?width=800)
次は、カンマ付き文字列の列データのカンマを削除する
![](https://assets.st-note.com/img/1709106212083-7wXuPDwtlu.jpg?width=800)
次の章に入るので今日はここまで。
本のリンクはAmazonアソシエイトプログラムを使ってます。
この記事が気に入ったらサポートをしてみませんか?