変数変換の乱用してもだめなんよ。。

pancho

2022年3月28日 11:29

統計学を学ばせていただくと、以下のような「変数変換」というものにでくわす。

標準化
Min-Max Scaling
対数変換
Box-Cox変換

ある回帰分析の精度を競うコンペで、ある種濫用的に変数変換を使ってみたが、ほとんど精度が変わらない。

ほんとに効果あるんかなを調べるため

精度(決定係数, MAE)
散布図のきれいさ

の観点から、↑の変換前後をみてみました。
見ての通り、、分布の形からそんなに変化ありません。

変換前の散布図はこちら　※目的変数: 取引価格、説明変数: 面積　です。

以下、4変換後の散布図、精度です。

mae(標準化): 0.24960172659963104
R2(標準化): 0.1949936644664253

mae(標準化): 0.24960172659963104
R2(標準化): 0.1949936644664253

mae(対数変換): 0.24960035755090024
R2(対数変換): 0.19501722436610347

今回は理解のために説明変数1つで行いました。
使えそうな変数すべてに対して、BoxCox, 標準化を行いました。
結果は、BoxCoxにより、MAE精度向上。標準化により、精度ダウンでした。
変数変換に限らず、PCA、欠損値処理等いろいろありますが、適用できるからと適用しても、むしろよくないほうこうにいってしまうことが多いので、使いどころを見極めつつ使いましょう。と思いました。

この記事が気に入ったらサポートをしてみませんか？