最終決戦！　弊社AI VS Scikit-Learnライブラリ

2024年2月22日 10:33

前回の記事で気象庁からダウンロードした気象データに対して正解率を競い、

弊社AIが全勝ということで終わりました。

しかしですよ、こう思った人もいるのではないでしょうか…

アヤメデータで勝たないと意味ないんじゃない？

そうです。最初に負け気味判定だったアヤメデータ。

アヤメデータで勝ってこそ真の勝利。

そこで弊社AI、ゼロから作り直しました。

ベイズモデルには変わりありませんが、別の理論を採用しました。

判定方法はより公平性を期すため、交差検証法の一種であるジャックナイフ法を５回行った時の平均正解率を競うことにしました。

（テスト回数はそれぞれ750回になります。）

また、前処理、チューニングは原則してませんが、敵に塩を送るようですがSVMだけは線形分離だと不利かなと思い非線型カーネルにしています。

僅差ではありますが、

弊社AIの全勝です！

でもこう思った人もいるでしょう、

僅差だし、偶然なんじゃないの？

そこで今回は仮説検定にかけてみました。

統計的に”弊社AIの正解率の方が高い”と言えるのか確認しました。

有意水準５％のt検定によると、

◯アヤメデータについて

決定木とランダムフォレストについては明らかに弊社AIの方が正解率が高い。

ロジスティック回帰とSVMについては差があるとは言い切れない。

◯気象データについて

SVMのみ明らかに弊社AIの方が正解率が高い。

他は差があるとは言い切れない。

という結果でした。

ほんとに僅差の戦いで、心臓に悪い企画でした笑

しかして圧倒的に負けているのは速度です。

Cythonによる実装を試みる予定なので、今度は速度を記事に取り上げるかも知れません。

この記事が気に入ったらサポートをしてみませんか？