【データコンペ】pandas.profilesがEDAに超便利

aaaki_T

2023年1月30日 20:57

1. 使えるシーン

前回の反省としてEDAをしきれていなくて、
半端な仮説で特徴量生成に着手してしまったことや、
加工後の欠損に気付かずエラーでタイムロスしたことがあった。

一方で、やはりデータの欠損や分布を毎回見るのが面倒くさい。
特にPythonのグラフ描画が面倒過ぎる！

その反省を活かしてググっていたところ見つけたのが、
pandasのprofilesというメソッド。

データコンペや新しい分析に着手するとき、一番最初に使える！

↓この記事が参考になる

2. 活用方法

自分が見ていた観点は以下で、これが恐ろしいこに1行のコードで出せる・・！

データ量：カラムと行数の確認
欠損値：欠損データがどのカラムにいくつあるかチェックする
データの型：カテゴリカルとニューメリックの数
変数のDistinct：これとデータ量でなんとなく構成がわかる
データ分布：ヒストグラムがめちゃくちゃ簡単に見れる
これだけで使う前処理のイメージがなんとなく湧く
相関：これが一番感動した！クリックだけで組み合わせ変えて、
2変数の相関係数が見れる。もちろん相関行列でも見れる

一通り概観で見たいところは揃ってませんか？！素晴らしい。

Tableauがあっても最初にデータを見るときは、
こっちの方が早くて見やすいと思う。

この記事が気に入ったらサポートをしてみませんか？