【統計学修士の備忘録】#5 主成分分析
こんにちは、ぽむぽむです。今回はデータの次元を削減する上で主成分分析(PCA)がどの様に役立つのか記録します。
結論からいうと、PCAは元々あった予測変数を組み合わせて、元より少ない数の新しい変数たちを作るのですが、この新しい変数たちは可能な限り分散が大きくなっており、また、互いに無相関です。こうすることで、多くの変数を含む元データの分散を、少ない変数の分散でカバーできるのです。
手順は以下の通りです。元の変数たちを$${X_{1}, …, X_{p}}$$をすると、最初