マガジンのカバー画像

古典機械学習を学ぶ

24
線形回帰、ロジスティック回帰、正則化、決定木、サポートベクトルマシン、クラスタリング、次元削減などの機械学習の仕組みを解説していく予定です。
運営しているクリエイター

2024年7月の記事一覧

scikit-learn機械学習㉑k-NN実践編

前回は、ノンパラメトリック手法であるk近傍アルゴリズム(k近傍法、k-Nearest Neighbors、k-NN)の紹介をしました。特に、KDツリーの構造について解説しました。今回は、scikit-learn の KNeighborsClassifier を使った実験を行います。 以前に実験したGBC(勾配ブースティング)などと比較してどのような性能を発揮するでしょうか。また、層化サンプリングについても解説します。

scikit-learn機械学習⑳k近傍アルゴリズム

前回は、勾配ブースティングによる分類の実験を行いました。 これまでブースティング、バギング、ランダム・フォレスト、決定木などを扱ってきましたが、これらは全てノンパラメトリックな手法です。 ノンパラメトリックの意味は後で解説しますが、今回紹介するk近傍アルゴリズム(k近傍法、k-Nearest Neighbors、k-NN)もノンパラメトリックな手法になります。 k-近傍アルゴリズム(以下、k-NN)の基本的な仕組みは単純です。以下、分類を例として解説します。 下図を見

scikit-learn機械学習⑲GBC実践編

前回は、勾配ブースティングの理論的な側面を解説しました。今回は、scikit-learnのGradientBoostingClassifier(GBC)を使って実験を行います。 まずは、デフォルトのパラメータで学習・評価を行い、その後にランダム・サーチを使ってより性能を高められるかどうかを確認します。さらに、アダブーストとの比較も行います。 また、重要な特徴量をグラフ表示して考察を行います。テクニックとして、ラベルごとに特徴量の重要度を表示する方法を紹介します。

scikit-learn機械学習⑱勾配ブースティング

前回は、グリッド・サーチとランダム・サーチでアダブーストのハイパーパラメータのチューニングを行いました。 今回は、アダブーストと同じブースティングの一種である、勾配ブースティング(Gradient Boosting)を紹介します。 残差(予測誤差)を減らすために弱学習器を追加していくというのが基本的なアプローチです。この学習プロセスを解説します。 なお、勾配ブースティングにおける残差と勾配の関係を理解し、なぜ勾配ブースティングが機能するのかを解説します。