見出し画像

100日後にプロになるワシ26日目(Python)

機械学習最後まで学習させて
AUC(Area Under the Curve)の値も92を超えた!!

AUC
AUCは指標の名前通りROC 曲線下の面積(積分)となります。この面積の範囲がは0から1 となります。ランダム分類器はのAUC値は0.5です。AUC値は0.5以上になれば分類器の効果がランダム分類器より良いです。AUC値は0.5以下になったら評価指標を逆にしてAUC値は0.5以上の分類器を得られます。

スクリーンショット 2020-09-18 9.35.59

ROC曲線
ROC曲線とは、閾値(疾患の有無を判断する基準値)を変化させたときの偽陽性率(False Positive Rate: FPR)と真陽性率(True Positive Rage: TPR)の各点を結んだものです。

スクリーンショット 2020-09-18 9.43.27

真陽性率と偽陽性率
真陽性率は「病気と判定して実際に病気だった確率」
偽陽性率は「病気判定して実際は病気でなかった確率」
のこと。

スクリーンショット 2020-09-18 9.38.51

このROC曲線は閾値によって形が変わってくる
例えば

40%の確率でガンなら全部ガンにしてしまおう!

とするとガンと診断される人が増えるし、

逆に、80%の確率でガンと診断すると、ガンと診断される人は減る。
この何%以上でどうこうする。というのを閾値という。

この閾値を使ってモデルの精度を上げる方法がある。

んで、色々やった結果がこれ

スクリーンショット 2020-09-18 9.27.46

。。。

。。

や ら か し た !

どうやらどっかのタイミングでテストデータ(test.csv)を書き換えてしまって、本来テストしたいデータと違うデータで予測していました。

おそらく、csvの書き出しで、かなりハマったので、その時に、test.csvを作成してしまったのかと。。。

なので、次回はちゃんとしたデータで作成します!

感想

最近時間取れないので
こっちをシンプルにして、学習を頑張るます。


いつもサポートありがとうございます。 難しい方は感想をコメントでいただけると嬉しいです。