データの量や質、評価指標などのテクニック

lightgbmとかxgboostとかアルゴリズムいろいろ試してみるのは良いのだけど、システム開発じゃないの、ただモジュール当てれば言い訳じゃなくてねー、他にも気にすることあるの……。
というやり取り多かった某ITベンダーAI部門いたなぁー(遠い目)

まずは特徴量を作るところ、そのための探索的データ分析も

そもそもデータ量の多寡とか、判別問題なら不均衡とか、このあたりちゃんと考えるだけで予測性能が格段に良くなる

アンサンブルにしたり問題を再定義したりテクニックいろいろ

そもそも予測性能の評価指標について

Rをメインで使うので恥ずかしながら知らなかったPythonテクニックを最後に。

他の情報を見たい方は、目次ページへ
仕切り直しで収集情報の整理から|くすぐったがり|note

この記事が気に入ったらサポートをしてみませんか?