外れ値の取り扱いはどうなりますか?
他の大多数のデータから大きく離れた値は外れ値と呼ばれ、モデル性能に影響を与える厄介者ですが、その反面、不正行為の検出やリスク回避、ビジネスチャンス発見に大変貴重なデータでもあります。
ここで、計測不能や入力ミス、システムエラーなどによる異常値は、外れ値とは区別されます。
モデル学習では、説明変数あるいは教師変数ともに外れ値が存在する可能性がありますが、対処方法如何でその性能に大きく影響します。
Predictでは、数値型の説明変数あるいは教師変数に対して、数値列を値で昇順に並べたときの最大値および最小値から、それぞれ既定パーセント(デフォルトで1%)の内側の値とデータ分布の濃度閾値に基づいた有効最大値、有効最小値が自動的に決定されます。
そして、その外側のレコードはそれぞれの有効値に置き換えられます(クリッピング処理)。
また、Predictでは、外れ値データをスキップする仕組みはない為、発生原因に応じてあらかじめ除去すべきかどうかの検討が必要です。
※弊社では、データ分析プロジェクトにまつわる様々なご相談に、過去20年以上に渡るプロジェクト経験に基づき、ご支援しています。社内セミナーの企画等、お気軽にご相談いただければ幸いです。
この記事が気に入ったらサポートをしてみませんか?