AI初心者がTitanic Challengeに挑戦 #02

昨日の反省を少しだけ活かして再チャレンジ。データを細かく見てみた。

■今回の手順

1) データをSex(性別)、Pclass(船室クラス)で分類して生存率を見てみる。女性のPclass 1,2はほぼ生存、男性のPclass 2,3はほぼ死亡。(まさに映画タイタニックのローズ[ケイト]とジャック[レオ様]状態)男性のPclass 1も生存率は37%。これも映画で見た、ボートに女性を優先した情景。

2) 女性のPclass 3、男性のPclass 1の生死を分かつ要素が無いか、他のパラメータを見てみる。Embarked(乗船港)は影響がかなり大きそうで、女性Plcass3の生存率は、S(英サウザンプトン)乗船者が38%となぜだかやたら低い。C(仏シェルブール):65%、Q(愛クイーンズタウン):73%。Sが出発港で、CとQに寄港したことから、Sで乗船した人(特に3等客室)は船の奥の方に部屋が有って避難に出遅れたのかもしれない。

3) 他の要素として、SibSp(兄弟と配偶者、なぜこれがセットなのかよくわからんが)、Parch(親・子供といった直系親族)の人数や、同じTicketで乗船している人数(家族や知り合い等)といった人数系のデータをチェックしてみる。SibSpが3人以上、Parchが4人以上になると、極端に生存率が落ちる。女性や子供を優先するとはいえ、グループの中で誰を残すか判断が難しく、全員で同じ運命を選んだのだろうか。(中には4人グループで4人生存している強者もいるが、レアケース)

4) ひとまず男性は全員死亡、女性はS乗船者のPclass 3は全員死亡で残りは全員生存という乱暴なデータを提出。

■結果!

6947位、正解率は0.77751に向上。

といっても前回の正解率0.76315から1.44%上がっただけで、16631位からここまで順位が上がっている。計算すると、418人分のテスト用データのうち正解が319人から325人になった、つまりたった6人正解数が増えただけでこれだけ順位が上がっている。この辺はどんぐりの背比べなんだろう。

そうとわかると、どんぐりの背比べでは満足できないので、もう少しがんばってみたい。

■明日以降トライすること

正解が335人(現在から+10人)になると、順位が1000位以内/20000人中に入ってくる=上位5%以内に入ってくるので、ここを目指して。

狙いどころは、以下。まだ手を付けていないAge(年齢)と、人数系のデータからロジックを組み立ててみたい。

①57人中全員を死亡とみなした(実際には4割弱生存とみられる)男性Pclass 1

②41人中全員を死亡としている(実際には4割弱生存とみられる)女性Pclass 3 乗船港 S

※今のところ、まったく機械学習でなく、ロジックで解こうとしている。これは良くない傾向。でも、まあ、ロジックでどこまで行けるかやってみて、機械学習でさらに精度が上がれば、それはそれで良いのかもしれない、とも思い、今は手を動かすことかな、何にせよ。

この記事が気に入ったらサポートをしてみませんか?