hiroly

データ屋さんです。 競馬データ分析を生業にしたいと夢を見て日々システム完成を目指すべく…

hiroly

データ屋さんです。 競馬データ分析を生業にしたいと夢を見て日々システム完成を目指すべく、 考慮するファクター研究とシステムプロットの開発に勤しんでます。 良き予想の手段となるよう頑張ります☺ 【主要な考慮ファクター】出走馬の走法、風や馬場読みバイアス、想定ラップと想定展開

最近の記事

風バイアス・NARスクレイピング②~高速化処理への道~

このお題だと、鶏卵論から結局は卵を選んだ?と言う感じですが。 これ以上追記するのもどうかと思い、新しい記事で投稿します。 結局、禁断の「非同期スクレイピング処理」に手を出してしまいました。 最大の理由は、、「余りに処理が鈍足で使用に堪えれない」からです。 全ての処理終わるまで、13万件超で3300時間って壊れとるやん!! って事が原因でした。 そりゃリストにリスト当ての処理をぶつけていますからね。。。 貧相な私のPCですが爆速処理を求めているにも関わらず、結局メモリ不足の

    • 【風バイアス用】NARの風関連のスクレイピング

      連日で懸案であった、気象庁HPからの風向・風速のスクレイピングを行っております。 先ずはコーディングにエライ時間が掛かります。。。 もっというと暑いからやる気が失せてしまう、、、それが一番ですが。 そんな事より、複雑な情報抽出方法を行っていて更にpandasは元より、requestsとButifulsoupをAPIとして使用している関係上、抽出位置情報の採譜が中々に難航しておりました。 風向や風速情報は、数多の競馬関連データの中では完全なる付加要素である為に、既存データ加工

      • スピード指数を改良してみる

        しかし暑いですねぇ。。。 黙っていても何だか汗がしたたり落ちてまいります(´;ω;`) そんな中でもめげずにまだまだコーディング実施中です。 いつぞやですか? スピード指数ってどうなんやろね?って言ってたと思いますが、実は足りない要素を足せばもっと使える値に化けるのでは?ということで、、Pythonでループさせて部品となる値を作っている最中であります。 なので、前回の投稿で申したカラム要素から追加で計算用のカラムを付け足す感じです。 まぁ、中央競馬と違って地方競馬は年間出

        • NARスクレイピングから編集

          又もやお久しぶりです。 先ずはスクレイピングの問題から。 リアルタイムのスクレイピングはWindowsマシンには厳しいですよね。 pandasのpd.read_html(url)[N] こいつがUTF8のデコードエラーを頻発するわけです。 これはどんな対策を打ってもなしのつぶてでして。 悔しいけど全くと言っていいほど使い物になりません。 ですが、ローカルにHTMLを落とすと問題なくスクレイピングできます。 これはー、、レスポンス速度とデコーディングトランザクションのバラン

        風バイアス・NARスクレイピング②~高速化処理への道~

          お久しぶりです【Scraping高速化】

          又もご無沙汰ですね。 中々更新できず、すみません<(_ _)> 現在、NARレース情報スクレイピングのデバックに励んでおります。 しかし問題が多いこと。。。 先ずpd.read_htmlの採取方法として、Butifulsoupを使用するにあたり もっとも簡単オプションとして"lxml"が良いか? 時間が掛かっても"html5lib"が良いのか? 果て又、デファクトな"html.parser"が良いのか?? などなどをしていたらトンデモなく時間が掛かってしまいました。 こ

          お久しぶりです【Scraping高速化】

          地方競馬のスクレイピング

          表題の件について、週末競馬もやらずにNetkeibaさんのID引用の手段考察とPythonコーディングをしておりました。 結果的にCSVへ上手く取り込めました!嬉しい!! データは更新で付け加えられるのでスクレイプ期間を範囲的に決めたとしても、CSVデータの取り扱いがシームレスになりました。 いやぁー、マジでやばかった(´;ω;`) 主流のPandasと通常スクレイプの二段活用でデータ抽出を行っておりますが、嵌りまくって詰みまくりで若干諦め加減でコーディングを実施していま

          地方競馬のスクレイピング

          馬柱とかのみで野良予想して地方競馬買ってみました【一部考察】

          まだScrapingに微細バクフィクスが発生している最中で、比べてみる事もあって、昨日は以前のExcel予想、本日はアナログ予想を行って実際に馬券購入してみました。 本日はそう、水沢と大井と笠松と金沢の開催。 因みに笠松や園田は不勉強と言うのが一番の理由ですが、人知を超えたおかしいことが起こるので、信用ならないものはデフォルトで絶対に手を出しません。(しかし経験上で名古屋はまだいい。) 昨日の雷雨の中の大井開催で、Excel予想では2頭軸の3連単万馬券とか予想出来ていたよ

          馬柱とかのみで野良予想して地方競馬買ってみました【一部考察】

          安田記念回顧。

          ご接待上手く行きましたね!というレースなのかな? 失礼、余りにも日本勢と実力が違い過ぎだったので。 言い方悪かったですね、すみません<(_ _)> さて、1着は下馬評通りで強かったロマンチックウォリアー。 完全勝利ですね。 ゴールしてからも余力もあったし、本当に強いと思います。 これでは予備登録のある、宝塚記念もオチオチしていられませんね。 香港は馬産が無い所だし、セン馬多いからなぁ、、G1を8勝する馬だとしても血が残せない。 セン馬だからこその柔軟性を持てるのは良いのだけ

          安田記念回顧。

          NARのデータって。

          開催が多いだけにScrapingするのがとても大変ですね。 満を持してでは無いですが、各ID取得の必要があったためにコード修正をしておりましたが、、とんでもない数のデータ数でしたw 中央開催データについてはScrape取得済なのですが、舐め過ぎていたかもです(苦笑) 取り急ぎのデータ取得を頑張っています。 更にこのデータでは問題があるっちゃーあります。 某競馬最大級サイトでは、能力試験のデータが取れない事です。 これは仕方が無いと諦めました。 明日明後日には取得完了まで行け

          NARのデータって。

          ダービー回顧

          本日のダービーを回顧します。 ラップ的には、2020年のコントレイル優勝時のラップと同じで、、 後傾ラップ、スローペース、稍瞬発となりました。 こうなると作為的にラピッドを買って出た岩田親父が刻む、恐る恐るのスローペースに、上手く立ち回った横山典さんの手綱捌きに感服した、流石という感じですね。 全ての駆け引き物語はメイショウタバル取消から始まり、ドン詰まりペースを演出したという感じで、内枠で完全に割を食ったのは控える競馬しかできない紅一点のレガレイラですね。 このレースは、

          ダービー回顧

          オークス回顧

          このレースは取れた方々多かったかもしれませんね。 馬券取れた方、おめでとうございます<(_ _)> 1着はチェルヴィニアのルメJ。 まさにそうだろうね、、という結果でしたね。 ハービンジャー産駒(ヨーロピアン種牡馬)は、やはりタッケーJには合わず、、発馬から柔らかく乗れるユーロJが結果を残します。 それに圧倒的な東京芝2400mの勝率、連対率、複勝率ですからね。 2着とは序盤からマークされていましたし、腕の差がハッキリとしていました。 また、2着の圭太J。 これも結果がそ

          オークス回顧

          打倒JRA打倒NRAっすわ【かとなく誓い建てw】

          さて以前からですが彼奴ら許さんという旗の下、絶対倒すべくの相手ですw というわけで鼻息荒く柵っている場合でもないので、土曜開催はスルーしますが、、明後日から倒していきます。 毎度開催が怪しすぎる、川崎とか金沢とか笠松とか園田とか高知とか、ワケ分らん会場はアンマリ参加したくなくて戴けないですけど。。。 ありゃりゃ案外除外対象が多いw それはそれは気持ちや運や感だけでは倒せる相手ではないので、毎レース賭けるなんてアホなことは絶対にしません。 データでも読み切れないレースとかは「

          打倒JRA打倒NRAっすわ【かとなく誓い建てw】

          MySQL+インメモリ化しようか如何しようか?!

          MySQLからデータを引き出すのに、インメモリ化しようか?どうしようか??ということで、Redisのセットアップを並行して行っております。 インメモリDBというと、SAPでは最近何かと話題であったHANAであり、MySQLと同じOracleの商用版ではCoherenceという各ソリューションがあります。 勿論お高いですよ~w あれ?Coherenceはひょっとして無料でダウンロードできる? でもメモリのグリッド化がメインのソリューションだから、金融とかマイニングするにも大規

          MySQL+インメモリ化しようか如何しようか?!

          【騎手成績】東京芝2400mのレース

          掲題の件について2018年~2024年開催の同距離同競馬場同条件の成績(勝率・連対率・複勝率)をSQLで出してみました。 クラスについては純粋に物理条件での得意不得意の確率を考察したいために、未勝利~全ての条件になります。 また前回の様に修正や改竄等が無い事とする為、SQL文実行値での値そのままを表記しております。 Where文でコースは「東京」、距離は「2400」、コース種別は「芝」、 Order_Arrival(着順)の勝率は=1着、連対率は<=2着、複勝率は<=3着とし

          【騎手成績】東京芝2400mのレース

          ヴィクトリア回顧(反省)

          1400mの馬がやはりかなぁ、、米国競馬のような超持続決着でしたね。 ラップを見ずとも上り3Fで判ります。 敢えて表題に画を入れません、、反省会だからですw システム完成前に中途半端に投稿したことを反省致します<(_ _)> さて、、、。 ナミュールの出遅れはタッケーさんの決定的な失敗でしたね。 手が合わないというか、らしからぬ、と言っていいでしょう。 いや、むしろ全く手が合わないのでしょう、タッケーさんは元々ヨーロピアン血統より米国血統の馬の方が息や手が合う騎手ですからね

          ヴィクトリア回顧(反省)

          JRAレース結果【CSVファイル作成→MySQLインポート】デバッグ編

          はい、結果的にデバッグが必要でした。。。 先ずは、MySQL構築当初の修正箇所です 当初、私は「Workbench」を利用していました。 後述しますが、公式GUIツールよりもっと使い勝手が良いツールをググって探したのでこちらを今は活用しています。 Workbench起動時エラー修正 先ずは、Workbench初期設定デバッグについてご説明致します。 C:\Program Files\MySQL\MySQL Workbench 8.0\workbench上の 「os_uti

          JRAレース結果【CSVファイル作成→MySQLインポート】デバッグ編