データの量や質、評価指標などのテクニック

2024年4月4日 23:36

lightgbmとかxgboostとかアルゴリズムいろいろ試してみるのは良いのだけど、システム開発じゃないの、ただモジュール当てれば言い訳じゃなくてねー、他にも気にすることあるの……。
というやり取り多かった某ITベンダーAI部門いたなぁー（遠い目）

まずは特徴量を作るところ、そのための探索的データ分析も

Rでシンプル半自動EDA（探索的データ分析） データセットを手にしたら、最初に実施するのがEDA（探索的データ分析）です。端的に言うと、データと仲良くなるための会話で www.salesanalytics.co.jp

基本となる3つの特徴選択手法とPythonでの実装 特徴量選択（変数選択）は、機械学習系の予測モデルなどを構築するとき、最初に行う重要なステップの1つです。予測に寄与しない www.salesanalytics.co.jp

そもそもデータ量の多寡とか、判別問題なら不均衡とか、このあたりちゃんと考えるだけで予測性能が格段に良くなる

第369話｜データ不均衡を解消するSMOTE データ不均衡は、医療、金融、ビジネス分析など多くの分野で遭遇する一般的な課題です。稀な事象や少数派のデータを正確に理解し www.salesanalytics.co.jp

アンサンブルにしたり問題を再定義したりテクニックいろいろ

傾向検定 | 大阪大学腎臓内科 www.med.osaka-u.ac.jp

そもそも予測性能の評価指標について

機械学習で使われる評価関数まとめ - Qiita はじめに評価関数（評価指標）についてあやふやな理解だったので、代表的な評価関数をまとめてみました。評価関数とはそもそもどん qiita.com

ROC曲線 | 大阪大学腎臓内科 www.med.osaka-u.ac.jp

Rをメインで使うので恥ずかしながら知らなかったPythonテクニックを最後に。

この記事が気に入ったらサポートをしてみませんか？

データ利活用まわりでサービス企画してるチーフなんたらサイエンティスト。なおX/twitterもnoteも私個人の意見であり、所属する組織の見解ではありません。匿名垢のくせしてですが一応ww