不均衡データの調整

2018年3月3日 15:21

顧客リスト2000に対してCVRが0.5%。
このデータを機械学習させたとする。

何も考えずにやると、99.5%のレートがでる判定機ができる。
だがまぁ、これってもともと0.5%の確立でCVするって話なので、CVしないって回答してれば99.5%の確立で正解します、ってだけ。

っていう話しがあるってことを前回書きました。

こういう場合は、
サンプルデータを増やしたり減らしたりして調整する方法があります。

ありますが、そもそも0.5%だと2000リストで10人しかCVしないってことなので、データ増減させるにも限度があるなぁ、とか思うわけで。

この記事が気に入ったらサポートをしてみませんか？