見出し画像

【Numerai】ツリーベースのモデルが依然として表形式データの深層学習よりも優れているのはなぜか?

イントロダクション

  • 動画はNumeraiのチーフサイエンティストであるMichael Oliverが司会を務める「Quant Club」の第2回エピソードです。

  • 主題は、「ツリーベースのモデルがなぜタブラー(表形式)データにおいてディープラーニングを上回るのか」です。

  • このトピックは前回のエピソードで触れた内容に関連し、Numeraiの参加者にとって重要な研究領域です。

論文の背景と目的

  • 論文「Why do tree-based models still outperform deep learning on tabular data」は、ツリーベースのモデルとディープラーニングモデルを公平に比較することを目的としています。

  • 特に、ツリーベースの学習器(ランダムフォレストや勾配ブースティングマシン)がタブラー形式のデータにおいて優れたパフォーマンスを示す理由を探っています。

データセットと実験設定

  • 45の異なるタブラー形式のデータセットを使用し、これらは比較的低次元です。

  • 使用されたデータセットのサイズは中程度(約10,000サンプル)で、データセットが大きくなると、ツリーベースのモデルとディープラーニングモデルのパフォーマンスの差が縮小することが示されました。

  • Numeraiのデータセットは数百万行に達しますが、各エラ(時間単位)でのパフォーマンスが重要であり、実質的には数百サンプルと見なされます。

ツリーベースモデルの優位性

比較対象モデルとそのパフォーマンス

  • 論文では、複数のツリーベースモデルとディープラーニングモデルを比較しています。

    • 比較対象モデルには、ランダムフォレスト、勾配ブースティングマシン(XGBoost)、多層パーセプトロン(MLP)、ResNet、そしてタブラー形式のデータ専用のTransformerベースのモデルが含まれます。

  • ハイパーパラメータチューニングの結果、ツリーベースモデル(特にXGBoostとランダムフォレスト)がディープラーニングモデルを上回ることが確認されました。

ツリーベースモデルのインダクティブバイアス

  • ツリーベースモデルの強みの一つは、滑らかでない関数を学習する能力です。

  • 論文では、モデルの出力を平滑化する実験を行い、ツリーベースモデルが滑らかでない出力を維持することでパフォーマンスを発揮することが示されました。

  • 具体的には、ランダムフォレストや勾配ブースティングマシンは、出力を平滑化するとパフォーマンスが大幅に低下する一方で、ディープラーニングモデルはそれほど影響を受けませんでした。

ディープラーニングモデルの課題

滑らかさのバイアス

  • ディープラーニングモデルは滑らかな関数にバイアスがかかっており、このバイアスがパフォーマンスを低下させる要因となっています。

  • 特に、MLPやResNetのようなモデルは滑らかな出力を生成しがちであり、これがタブラー形式のデータにおけるパフォーマンスに影響しています。

無関係な特徴量の影響

  • ディープラーニングモデルは無関係な特徴量に対して敏感であり、ノイズの多い特徴量を追加するとパフォーマンスが大きく低下します。

  • 一方、ツリーベースモデルは無関係な特徴量に対して比較的頑健であり、この点でもディープラーニングモデルより優れています。

特徴量選択の重要性

特徴量選択の方法

  • 特徴量選択はモデルのパフォーマンス向上において非常に重要です。

  • 論文では、ランダムフォレストを用いて特徴量の重要度を計算し、重要度の低い特徴量を削除する実験が行われました。

  • 特に、無関係な特徴量を追加するとMLPのパフォーマンスが大幅に低下する一方、ツリーベースモデルはそれほど影響を受けませんでした。

回転行列を用いた実験

  • 特徴量の回転がツリーベースのモデルのパフォーマンスを低下させることが示されました。

  • PCAなどの回転行列を適用すると、ディープラーニングモデルはパフォーマンスが向上する一方で、ツリーベースモデルはパフォーマンスが低下します。

  • これは、ツリーベースモデルが特徴量を個別に評価するのに対し、ディープラーニングモデルは特徴量を線形結合して評価するためです。

質疑応答

モデルの実践的な応用

  • 動画の後半では、視聴者からの質問に答え、Numeraiのデータセットの特性や特徴量選択の方法について議論が行われました。

  • 特に、メタモデルのスコアを用いた特徴量の選択や、異なるモデルのインダクティブバイアスについての詳細な議論が行われました。

TC(ターゲットコア)とパフォーマンス

  • TCは従来のコアとは異なり、メタモデルとの相関が低い予測を重視します

  • 高いTCを達成するためには、メタモデルと低い相関を保ちつつ、一貫して良好なシグナルを提供する必要があります。

  • 特に、メタモデルスコアをターゲットとして使用し、その残差を学習することで高いTCを目指すことが推奨されました。

特徴量のシャープ比の利用

  • 特徴量選択にはシャープ比を用いる方法もありますが、単一の特徴量のシャープ比では交互作用の重要性を見逃す可能性があります。

  • したがって、シャープ値を計算する際には、特徴量間の交互作用も考慮することが重要です。

エラ単位での評価の重要性

  • Numeraiの問題設定では、各エラ(時間単位)でのパフォーマンスが重要であり、エラ単位での統計評価が有効です。

  • これにより、モデルの一貫性と堅牢性を高めることができます。

結論

  • ツリーベースのモデルがタブラー形式のデータにおいてディープラーニングモデルを上回る理由は、そのインダクティブバイアスにあります。

  • 特に、滑らかでない関数を学習する能力や無関係な特徴量に対する頑健性が重要です。

  • ディープラーニングモデルをタブラー形式のデータに適用する際には、特徴量選択やモデルのインダクティブバイアスを考慮することが求められます。

この記事が気に入ったらサポートをしてみませんか?