The Complete Python Pro Bootcamp 2023: Day 72/100

2023年12月18日 03:47

パンダを使用して大学卒業後の主要な給与を分析し、特に最高および最低の給与を得る学位に焦点を当てた。
データの探索、クリーニング、特定のデータポイントへのアクセス、ソート、新しい列の追加、データのグループ化など、Pandasの基本的な技術を学習。
2008年の金融危機以降にデータがどのように変化したかを調査するために、ウェブスクレイピング技術の使用を奨励。

Pandasで大学での専攻の給与を探る

100 Days of Codeの72日目へようこそ： 2023年に向けたPythonプロフェッショナル・ブートキャンプの72日目です！今日は、データ分析のための強力な Python ライブラリである Pandas を使って、魅力的なデータ探索の世界に飛び込みます。今回は、大学卒業後の専攻別給与の分析という実用的なアプリケーションに焦点を当てます。様々な大学の学位がもたらす経済的リターンについて興味がありますか？さっそく始めましょう！

データと質問

PayScale社による、学士号のみを持つ120万人のアメリカ人を対象とした1年間の調査から得られたデータセットを使用しています。主な質問は以下の通りです：

初任給が最も高い学位は？
大学卒業後の収入が最も低い専攻は？
最も高収入が期待できる学位は？
大学卒業後の収入が最も低い専攻は？

ビジネス、STEM、HASS（人文・芸術・社会科学）の各専攻の収入も比較します。

ツール PandasとGoogle Colab

分析の前に、環境を整えます。PyCharmは素晴らしいIDEですが、データ探索にはPythonノートブック、特にGoogle Colab Notebookが適しています。Google ColabはGoogle Driveからアクセス可能で、Jupyter Notebookのオンライン版です。

データを始める

まず、データセット `salaries_by_college_major.csv` をノートブックにアップロードします。Pandasを使えば、簡単にファイルを読み込むことができます：

python
import pandas as pd
df = pd.read_csv('salaries_by_college_major.csv')

Pandasを使うと、データフレームを効率的に探索することができます：

df.head()`と`df.tail()`でデータを覗くことができます。
df.shape` で行数、列数を確認できます。
列名を表示する `df.columns` 。
`df.isna()` で欠損値 (NaN) をチェック。

データのクリーニングとアクセス

`df.dropna()`を使用して、NaN値を持つ行を削除することでデータをクリーニングします。特定のデータポイントへのアクセスは簡単です：

カラムにアクセスします：カラムへのアクセス: `df['column name']`
セルにアクセス: `df['column name'][index]` または `df['column name'].loc[index]`
極値の検索: `.max()`, `.min()`, `.idxmax()`, `.idxmin()`.

ソート、グループ化、その他

データのソートは重要です。並べ替えには `df.sort_values()` を使い、新しいカラムを追加するには `df.insert()` を使います。例えば、10パーセンタイルと90パーセンタイルの給与を比較するために'Spread'カラムを追加しました。

エクセルのピボットテーブルのようなデータのグループ化は、`.groupby()`で行います。これにより、専攻をSTEM、HASS、ビジネスに分類し、それぞれの平均給与を分析することができました。

課題と解決策

私たちは、最も可能性が高く、給与に大きな開きがある専攻を特定するといった課題に取り組みました。例えば、90パーセンタイルで上位の学位は経済学であり、収入に大きなばらつきがあることがわかりました。

実社会への応用

追加課題として、2008年以降、特に金融クラッシュ後のファイナンスなどの専攻において、データがどのように変化したかを調査しました。PayScaleのウェブサイトから最新のデータを収集するために、ウェブスクレイピングのテクニックを適用することを推奨しました。

まとめと学習ポイント

要約すると、データ分析のための重要な Pandas テクニックを学びました：

データの探索とクリーニング
データへのアクセスと操作
データの並べ替え、列の追加、グループ化

最終的な感想

72日目のまとめとして、Pandasがデータ分析に欠かせないツールであり、深さと柔軟性の両方を提供することは明らかです。新進のデータサイエンティストであれ、好奇心旺盛な学習者であれ、データを操作し分析する方法を理解することは、今日のデータ駆動型の世界では重要なスキルです。

今日はここまでです！このノートブックは、あなたが実験し、探求するために添付されています。73日目にお会いしましょう！🚀📊🐍

「超勇敢なウサギ」へ

この記事が気に入ったらサポートをしてみませんか？