Kaggleで学ぶ機械学習｜sasayaka

機械学習モデルのパラメータ最適化 - Optunaのアルゴリズム

いままでなんとなく使っていたOptunaのパラメータ最適化。グリッドサーチのような総当たりアプ…

sasayaka

2週間前

8

Voting Regressor - 複数モデルを組み合わせて予測精度を向上するアンサンブル学習

いまさらながらVoting Regressorのアンサンブル学習をChatGPTに教えてもらった。Kaggleで公開…

sasayaka

1か月前

7

KaggleでExpertに昇格したのでどれくらい価値があるのか（ないのか）訊いてみた

Kaggleのコンペで銅メダルを２つ獲得し、Competition Expertに昇格した。挑戦して１年目の成果…

sasayaka

1か月前

25

マルチラベル分類問題 - 性能評価指標 AUC（Area Under the Curve）の適用

Kaggle初心者向けPlayground Seriesで、今回のテーマはマルチラベル分類。AUCの考え方がよくわ…

sasayaka

2か月前

8

多値分類の閾値調整: Optunaを用いた精度向上

多値分類のコンペが苦手だ。分類問題では後処理での閾値調整が有効らしいけど、その辺の理解が…

sasayaka

2か月前

11

正則化とは？ -機械学習モデルの過学習を防ぎ、予測精度を最適化する

正則化はモデルが訓練データに過剰に適合することを防ぎ、新しいデータに対する予測精度を高め…

sasayaka

2か月前

5

機械学習のための対数変換 - NumPyのlog1p関数

正規分布していない特徴量や目的変数を対数変換することで、予測精度が向上することがある。なんとなく使っていた対数変換について、ChatGPTに教えてもらったのでメモ。対数とは対数は、ある正の数が別の正の数を何乗したものかを示す数学的操作です。主に、「大きな数値を小さくして扱いやすくする」ために用います。例えば、基数10の対数では、10を何乗するとある数になるかを示します。基数10の対数関数対数関数のグラフは、xの値が増えるにつれてyも増えますが、増加のペースは次第に

多次元データの異常値判定 - Isolation Forest

ChatGPTにIsolation Forestの異常値判定を教えてもらったメモ。特に多次元データセットでの異…

sasayaka

3か月前

10

パイプライン処理で効率化： scikit-learnのpipelineモジュール

scikit-learnのpipelineについてChatGPTに訊いてみた。要するに、.fit()メソッドを使った一連…

sasayaka

4か月前

4

ChatGPTと学ぶ：時系列データの自己相関

時系列データの自己相関について勉強中です。ChatGPTは多くの知識を持つ頼りになる相棒ですが…

sasayaka

5か月前

3

Kaggle パラメータ最適化をChatGPTにお願いしてみた

LightGBMのパラメータ最適化について、ChatGPTに聞きながら確認中です。 ChatGPTに予測モデル…

sasayaka

6か月前

12

Kaggleコンペ - 株取引の終値の動き

Kaggleのコンペティション。共有されているコードは勉強になるのですごくありがたいのですが、…

sasayaka

6か月前

8

Kaggle トップレベルの人たちの取り組み方を見習う

ときどきKaggleに取り組んでいるものの、まだまだ何かが足りないなと感じる毎日です。この記事…

sasayaka

6か月前

6

勾配ブースティング決定木：データで手に入れる最高の選択

機械学習の「勾配ブースティング決定木」についてChatGPTに教えてもらったのでメモ。我々がPDCA（Plan-Do-Check-Action）サイクルで行う修正・向上と似ている。勾配ブースティング決定木LightGBMやXGBoostなどで利用される「勾配ブースティング決定木（GBDT）」は、データから隠れた「法則」や「パターン」を見つける強力な手法です。この方法では、「勾配」と呼ばれる変化の度合いを用いて、決定木が逐次的に修正されます。決定木とは？決定木は、一

Kaggleで学ぶ機械学習

記事一覧

機械学習モデルのパラメータ最適化 - Optunaのアルゴリズム

Voting Regressor - 複数モデルを組み合わせて予測精度を向上するアンサンブル学習

KaggleでExpertに昇格したのでどれくらい価値があるのか（ないのか）訊いてみた

マルチラベル分類問題 - 性能評価指標 AUC（Area Under the Curve）の適用

多値分類の閾値調整: Optunaを用いた精度向上

正則化とは？ -機械学習モデルの 過学習を防ぎ、予測精度を最適化する

機械学習のための対数変換 - NumPyのlog1p関数

多次元データの異常値判定 - Isolation Forest

パイプライン処理で効率化： scikit-learnのpipelineモジュール

ChatGPTと学ぶ：時系列データの自己相関

Kaggle パラメータ最適化をChatGPTにお願いしてみた

Kaggleコンペ - 株取引の終値の動き

Kaggle トップレベルの人たちの取り組み方を見習う

勾配ブースティング決定木：データで手に入れる最高の選択

正則化とは？ -機械学習モデルの過学習を防ぎ、予測精度を最適化する