![見出し画像](https://assets.st-note.com/production/uploads/images/125875094/rectangle_large_type_2_46d5a8cc783ffd733e906d793d0ea2c1.png?width=1200)
The Complete Python Pro Bootcamp 2023: Day 100/100
米国の警察による死亡事件を分析するプロジェクトで、収入、教育レベル、人種などの社会経済的要因と警察による致命的な力の使用との関連を調査。
データの読み込み、エンコーディングの問題解決、データクリーニングと変換などの技術的な課題に取り組む。
データサイエンススキルを用いて社会的な課題に光を当て、意義ある議論に貢献する可能性を学ぶ。
「100 Days of Code」の100日目を迎え、特にインパクトのあったプロジェクトを振り返っています。私たちの課題は、デリケートで政治的なトピックを分析することでした。
プロジェクトの範囲
私たちの目標は、米国の国勢調査データとワシントン・ポスト紙の警察関連死亡事故に関するデータベースを組み合わせて、洞察を引き出すことでした。世帯収入の中央値、貧困率、学歴、人種などの社会経済的要因と、警察による致死的な武力行使との相関関係を調べながら、さまざまな疑問を掘り下げていきました。
アプローチと課題
このプロジェクトは、ライブラリをインポートし、Pythonの`glob`関数を使ってディレクトリ内のCSVファイルを識別することから始まりました。ファイルのエンコーディングの扱いが難しいことが判明し、読み取りを成功させるためにループ内でtry/exceptブロックが必要になりました。ファイルを読み込んだ後、列名をタイトルケースに変換したり、"City "列を標準化するなど、データのクリーニングと変換を行いました。
洞察と相関
人種の人口分布と警察官による発砲事件の被害者の関係、精神疾患の影響、ボディカメラの役割など、数多くの相関関係を探りました。分析は、これらの社会的課題の複雑さと入り組んだ部分を浮き彫りにしました。
学びと反省
この旅に困難がなかったわけではありません。エンコーディングの問題に対処し、多様なデータセットを統合するには、データの詳細な理解と慎重な注意が必要でした。私は、徹底したデータ探索の重要性と、データの関係を理解するための視覚化の力を学びました。
今後に向けて
今回の実習を振り返り、データサイエンティストとしての成長を実感しています。データのクリーニングと前処理の重要性を痛感しました。今後のプロジェクトでは、データ分析をより深く掘り下げ、より複雑な統計手法やより広範なデータの可視化を探求していきたいと思います。
結論
このプロジェクトは単なる技術的な練習ではなく、データサイエンスのレンズを通して重要な社会問題を深く探求するものでした。社会の課題に光を当て、有意義な言説に貢献するデータサイエンティストとしての責任と可能性を再認識しました。
この記事が気に入ったらサポートをしてみませんか?