Python学習

2023年2月20日 07:15

先週まで平日は仕事や出張。土日は県外への何かしらの遠征を2週ちょっと続けただけで体のダメージが大きくなっていたみたいで土日はダウンしていた。
体力は必要だなと改めて感じた。朝活の集中力を高めるためにという理由も含め今日から朝ウォーキングを取り入れることにした。

結果、、、
頭がちゃんと早めに起きてくれるため集中力は以前より増している気がする。ついでに運動不足だったから一緒にちょっとした運動にもなるかなと思うからこれは続けていこうと思う。

早速集中力とモチベーションが高まった段階で勉強開始

本日の最初の学びはデータの欠損値を調べる方法でこれまではisnullメソッド等を使用していたが、.any(axis=1)をつなげることで欠損値のサンプルの行の抽出をすることができた。　※axis=1は列を削除するためのもの（デフォルトではaxis=0）
これはこれまで知らなかったから新たな学びとして一つ頭にインポートということで

次に欠損値の代入はfillnaメソッドを使うようだ。欠損値を捨てる場合はdropのdropna()、埋める場合はfillのfillna()ということ。
fillna()の後はinplace=Trueを追加でデータフレームに直接上書き保存することができる。
確認作業は重要だとよくよく最近感じるからちゃんと確認作業はするように
その場合はとりあえず行の確認だからlocを使用。
列部分の指定は「　:　」の使用で全部を意味するというのも学べた。

重複データの確認と個数確認ではduplicated().sum()
重複データの削除にはdrop_duplicates()

前準備として重複データの確認は重要とよく考えればわかるのに今まで考えてなかったと思うと思考の幅が少ないな～とよく感じる。

さて、重複データを確認して削除してとしたときサンプル数が減って何かおかしいことになってしまってないだろうか。
データフレームの順序整理とインデックスを新たに作成するためにreset_indexメソッドの使用。
.reset_index(drop=True, inplace=True) ※デフォルトがFalse
これでインデックスの振り直しと元のインデックスの削除、データフレームの書き換えができる。

データ分析の前段階で毎回すでに疲れている、、、（（笑））

同時に少し自信もなくなってしまう、、
ただ！同時にモチベーションも上がる

やれるだけやっていこうと先に少し進む
データフレームの基本統計量にはdescribe()を使うが、数値型以外の変数も表示するためにはdescribe(include='all')とする
データ数のカウントにはvalue_counts()

このあたりで時間の終了。
明日は可視化に進んでいこうと思う。

この記事が気に入ったらサポートをしてみませんか？