データ探索の新しいおとも SweetVizの紹介

2024年4月4日 08:33

データセットをUIで確認しながら簡単に探索できるツール、SweetVizを紹介します。
この手のツールは他にpandas-profiling（現 ydata-profiling）がありましたが、それよりもモダンなUIが特徴となっています。

概要

データサイエンスの分野では探索的データ分析(EDA)が欠かせません。
どんな分析をするにせよ、まずは用いるデータがどのような特性を持っているか確認しないといけないからです。
ただしデータ分析においてこの作業は価値を生む本質ではないので、できれば時間をかけたくありません
そこでEDAをサクッと行ってくれるこのSweetVizのようなツールが重宝されるのです。

SweetVizは例えば次のような特徴を持っています。

Data Statistics: 各列の基本的な統計情報を提供
Data Types: 各列のデータ型を示し、データ型の混在を検出
ターゲット変数に対する重要度: 機械学習タスクでターゲット変数に大きな影響を与える特徴量を特定
データ分布: 各特徴量の分布を視覚化し、外れ値やデータの裾を検出
欠損値の割合: 各特徴量の欠損値の割合を示し、最適な前処理手順を示唆
データの相関関係: ターゲット変数と他の特徴量間の相関を強調表示

使い方

導入についてはPythonに慣れた方であれば目をつぶってもできる次のコマンドです。

pip install sweetviz

そして可視化のサンプルコードはわずかこれだけ

import sweetviz as sv

my_report = sv.analyze(df)
my_report.show_html('SweetViz_report.html')

カスタマイズについても、特定の変数を強調表示したりソートしたりできます。
詳細は書ききれないので公式ドキュメントを参照ください。

参考

https://medium.com/@krishnusai/sweetviz-in-python-1a184923fec5

この記事が参加している募集

#仕事について話そう

112,434件

よろしければサポートお願いします！いただいたサポートはクリエイターとしての活動費に使わせていただきます！