AI初心者がTitanic Challengeに挑戦 #03

今日はちょっと体調が悪くはかどらず。

■今回の手順: 昨日書いた、「41人中全員を死亡としている(実際には4割弱生存とみられる)女性Pclass 3 乗船港 S」について学習データ88人分について重回帰分析を行い、これを元にテストデータに生死を付けてみる。相変わらずのエクセル作業。

画像1


1) Age(年齢)、SubSp(兄弟・配偶者人数)、Parch(親・子等)、1人当たりチケット価格 = Fare/[同じチケットナンバーの人数] とSurvived(生死)で重回帰分析。近似式を得る。

2) 一番正解の高くなるしきい値を見つける。全員死亡とすると正解55人/88人中だが、しきい値を振ってみると59人正解がMAX。(ん-、もうちょっと正解増えるかと思ったが、こんなものか。)

3) テストデータに1)で得た近似式をあてはめ、2)のしきい値で生死を割り振る。2人正解が増加すると予想。

■結果 正解が8人減少

なーんでか? そういやテストデータでやけに生存者が多い分析結果だなーとは思ったのだが、よく見ると、1人当たりチケット価格が高い人が多い、明らかに高い人がかなり居る。

チケット1人当たり価格は、生死と正相関でP値:0.277だからまずまず相関有り、明らかに価格高い人は不当に生き残る判定になってしまう。

チェックしたところ、テストデータの418人の中で、同じチケットナンバーの人数をカウントしたのだが、これは学習データとテストデータをマージしたものでカウントした方が間違いなく精度上がる。

■明日以降トライすること

1人当たりチケット価格を学習データとテストデータの両方を使って計算やり直し。まずは女性Pclass 3 乗船港 Sから。うまく行ったら男性Pclass 1もやってみる。うまく行かなかったら、、、明日あたり、ネット購入した「Python実践データ分析100本ノック」と「PythonではじめるKaggleスタートブック」が届くので、いよいよScikit-Learn使って機械学習っぽいこともやってみよう。

この記事が気に入ったらサポートをしてみませんか?