見出し画像

Kaggle解説記事:データサイエンスフレームワークの和訳&要約

おさかな翔太です。今回はKaggleの解説記事になります。といっても今回はデータサイエンスの概要を和訳&要約したものになります。本格的に学ぶ前に知っておいたほうが良い内容だと思ったので記事にしました。


(※現在はA Data Science Frameworkの1~7まで(チャプター2まで)和訳&要約してあります。残りは随時更新予定)



ではこちらの記事の和訳&要約を載せていきたいと思います。


チャプター1 - どのようにデータサイエンティストは逆境に打ち勝つのか
チャプター2 ‐ データサイエンスフレームワーク
チャプター3 - ステップ 1: 問題をはっきりとさせる ステップ 2: データ収集
チャプター4- ステップ 3: 消費のためのデータの準備
チャプター5 - データクリーニングの4つのC: Correcting(収集), Completing(完成), Creating(作成),  Converting(変換)
チャプター6 - ステップ4: 統計学を使った探索的分析の遂行
チャプター7 - ステップ5: モデルデータ
チャプター8 - モデルのパフォーマンスの評価
チャプター9 - ハイパーパラメータでのモデルの調整
チャプター10 - 特徴選択でのモデルの調整
チャプター11 - ステップ6: 有効化と実行
チャプター12 - 結論、ステップ7: 最適化と戦略

チャプター1 - どのようにデータサイエンティストは逆境に打ち勝つのか

二元の出来事の結果の予測は古くからの問題であるとされてきた。 素人の言葉で言うと、それは起こったか、それとも起こらなかったか。例をあげると、勝った勝たなかった、テストをパスしたパスしなかった、合格した合格しなかった、これであなたもピンときたと思う。一般的なビジネスアプリケーションは、回転売買や顧客の囲い込みである。もう一方のよく用いられるケースはヘルスケアの死亡率もしくは、生存率分析である。二元の出来事は興味深くダイナミックなものを生み出す。なぜなら私たちは統計的にあるひとつのアルゴリズムを作ることもしくは、ある一行のプログラミングコードを書くことなしで、あるランダムな推測は50%の正解率に達するべきだと思っているからである。しかし、オートコレクトやスペルチェックのテクノロジーのように、しばしば私たち人間は自分のために賢くなりすぎて実際にはコインフリップ(コインを指ではじくこと)の標準・平均よりも低い働きをしてしまうことがある。このカーネルで私はKaggle's Getting Started Competition, Titanic: Machine Learning from Disasterを用いて、逆境に打ち勝つためにどのようにデータサイエンスフレームワーク使うかを段階的にこれを読んでいる方に説明していく。

テクノロジーが自身のために賢くなりすぎた時、何が起こるのか。

チャプター2 ‐ データサイエンスフレームワーク

ここから先は

1,789字

¥ 300

少しでもサポートがあると励みになります。