競輪予想で疑問に思ったことを解決するための
お世話になっております。
競輪予想を行っていて、確かに100%の回収率は作れるものの、購入できるレースは、あまりに限定的だという状況まできました。
そこで何かが足りないと考え、再度、機械学習を学び直すことにしました。
学び直しの経過
かなりミスをしながらも、もがきながら突き進んでいく様が痛々しい。。。
出会い
学び直しの途中で、遺伝的アルゴリズム・遺伝的プログラミングに出会いました。
当初、月内にもkaggleのTitanicの生存率予想で、好成績を出せるようにと奮闘していましたが、なんとかここまできました。
私の感覚で普通に予測すると、78%です。
神経質に欠損値と呼ばれる、欠けたデータを埋めていくことで、79.9%まで行くのですが、どうしても80%に行きません。
実際に80%を超すことは簡単なのですが、それはTitanicに関する知識があるから。
機械学習に望む目標
知識がない段階でも、ある程度の好成績が、Pythonを扱うことだけで出せなければ、あらゆるデータに対応できるベースモデルを作ることが出来ないと想定しました。
上記のように、データに関する知識が増えれば、機械学習の精度は上がります。
そうではなくて、データをチラリと見た段階で作るベースモデルの精度が、ベースとして高いことが、未知のデータ(ここでは競輪予想)に活きると考えているのです。
そこで、私はルールを考えました。
Titanicを忘れる
一旦、今までの分析を忘れよう。
そのため9ヶ月ほど、前回の挑戦から間を開けました。
機械学習モデルの作成で気をつけたこと
それでも覚えていることはたくさんあるものの、データを分析して、そこから読み取ったこと、想定したことだけでモデルを作っていきました。
すると、かなり理想に近い特徴量の生成(特徴量とは、Titanicだと、生存と判定するのに必要なデータ群のこと)が出来てきました。
当時はこれもできなかったことですが、正解率が上がってこない。
遺伝的アルゴリズム・遺伝的プログラミング
何か新しいテクニックが必要なのかも知れない。
ここまで10日程度。
そう思って、Titanicの100%の確率を出したものを見てみることにしました。
※ここまでが辛かった。。。
プログラムのミスなどにも気づいて、それを補正しながら取り組んできましたが、最終的に出会ったのがこれ。
遺伝的ホニャララ。
どうしても理解できない部分というのは少ないので、これから数日で扱えるようになりたいと思います。
自分なりだけど努力してきたから、きっとなんとかなる。
努力は報われないことも多いと思うのですが、無駄ではないと思うのですよね。
いつもお読みいただき、ありがとうございます。 書くだけでなく読みたいので、コメント欄で記事名入れてもらうと見に行きます。