不均衡データの調整
顧客リスト2000に対してCVRが0.5%。
このデータを機械学習させたとする。
何も考えずにやると、99.5%のレートがでる判定機ができる。
だがまぁ、これってもともと0.5%の確立でCVするって話なので、CVしないって回答してれば99.5%の確立で正解します、ってだけ。
っていう話しがあるってことを前回書きました。
こういう場合は、
サンプルデータを増やしたり減らしたりして調整する方法があります。
ありますが、そもそも0.5%だと2000リストで10人しかCVしないってことなので、データ増減させるにも限度があるなぁ、とか思うわけで。
この記事が気に入ったらサポートをしてみませんか?