Pandasで知っておくべきメソッドまとめ

Pandasの必須メソッドについて、以下のように体系的にまとめて、各項目を詳細に説明します。

Pandasの必須メソッド

1. データ構造

  • Series(): 一次元の配列にラベルを付けたデータ構造。

  • DataFrame(): 二次元の表形式データ構造で、行と列にラベルがある。

2. データ生成

  • read_csv(): CSVファイルを読み込む。

  • read_excel(): Excelファイルを読み込む。

  • read_json(): JSONファイルを読み込む。

  • dict(): Pythonの辞書型からデータフレームを生成する。

3. データ確認

  • head(): データの先頭を表示する。

  • tail(): データの末尾を表示する。

  • info(): データフレームの情報を表示する。

  • describe(): 統計量を表示する。

  • shape: 行と列の数を表示する。

  • columns: 列名を表示する。

  • dtypes: 各列のデータ型を表示する。

4. データ操作

  • assign(): 新しい列を追加する。

  • drop(): 行や列を削除する。

  • rename(): 行や列の名前を変更する。

  • replace(): 特定の値を置き換える。

  • sort_values(): データをソートする。

  • sort_index(): インデックスでソートする。

  • reset_index(): インデックスをリセットする。

  • melt(): データフレームを「溶かして」長い形式に変換する。

5. グルーピング

  • groupby(): データをグループ化する。

  • agg(): 集約操作を行う。

  • apply(): 関数を適用する。

  • transform(): 変換操作を行う。

  • filter(): 条件に基づいてフィルタリングする。

6. データ整形

  • dropna(): 欠損値を持つ行や列を削除する。

  • fillna(): 欠損値を特定の値で埋める。

  • isna(): 欠損値を確認する。

  • interpolate(): 欠損値を補間する。

  • duplicated(): 重複した行を確認する。

7. 時系列処理

  • to_datetime(): 日付データを日時形式に変換する。

  • date_range(): 日付範囲を生成する。

  • resample(): 時系列データをリサンプリングする。

  • shift(): データをシフトする。

  • rolling(): ローリングウィンドウ計算を行う。

8. インデックス・順序操作

  • set_index(): インデックスを設定する。

  • reset_index(): インデックスをリセットする。

  • sort_index(): インデックスでソートする。

  • sort_values(): 値でソートする。

9. データ結合

  • merge(): データフレームを結合する。

  • join(): データフレームを結合する。

  • concat(): データフレームを連結する。

  • append(): 行を追加する。

10. データ選択

  • loc[]: ラベルベースのインデックス指定でデータを選択する。

  • iloc[]: 整数ベースのインデックス指定でデータを選択する。

  • iat[]: 特定のインデックス位置の要素を選択する。

  • at[]: 特定のラベル位置の要素を選択する。

  • filter(): 列や行をフィルタリングする。

11. 視覚化

  • plot(): データをプロットする。

  • hist(): ヒストグラムを表示する。

  • boxplot(): 箱ひげ図を表示する。

  • scatter_matrix(): 散布図行列を表示する。

12. 出力

  • to_csv(): CSVファイルとしてデータを出力する。

  • to_excel(): Excelファイルとしてデータを出力する。

13. 統計量

  • mean(): 平均値を計算する。

  • median(): 中央値を計算する。

  • mode(): 最頻値を計算する。

  • std(): 標準偏差を計算する。

  • var(): 分散を計算する。

  • min(): 最小値を計算する。

  • max(): 最大値を計算する。

  • count(): 要素数を計算する。

14. window関数

  • rolling(): ローリングウィンドウを適用する。

  • expanding(): 拡張ウィンドウを適用する。

これらのメソッドは、データの生成、確認、操作、整形、グルーピング、結合、選択、視覚化、出力、統計量の計算、時系列処理など、Pandasの様々な機能を網羅しています。それぞれのメソッドを使用することで、効率的にデータを操作・分析することができます。

この記事が気に入ったらサポートをしてみませんか?