ぽむぽむ

東京大学を卒業後、ロンドンの大学院で金融統計学・データサイエンスを学んでいます。データ…

ぽむぽむ

東京大学を卒業後、ロンドンの大学院で金融統計学・データサイエンスを学んでいます。データサイエンス、プログラミング、金融など。

最近の記事

【ディキンソン 勝手に和訳集】#1

こんにちは、ぽむぽむです。今日は大英図書館で試験勉強をしていたのですが、帰りに図書館の中にある本屋さんに寄ったところ、UEAの方が編纂されたエミリー・ディキンソンの詩集があったので買ってきました。 日本ではこちらの対訳を読んでいたのですが、選ばれている詩も異なると思うので読むのが楽しみです。 今回買った本に載っている詩のほとんどは、ちゃんとした和訳がないと思うので、私の解釈での勝手な和訳を今後少しずつ載せていきたいと思います。 187 何度この足でよろめいたことだろう

    • 【統計学修士の備忘録】#8 時系列分析の基礎

      こんにちは、ぽむぽむです。金融統計の試験に向けて猛勉強中です。 前の投稿でも記載した通り、金融統計は時系列分析との関係がとても深いです。 ということで、時系列分析の基本とされる ARMA モデルや GARCH モデルやについて投稿していきたいのですが、その前に今回はまず時系列分析で頻出の概念について記録しておきます。 定常性 Stationarity時系列分析ではデータが定常であるかどうかが非常に重要となります。定常性とは簡単に言うと、そのデータの統計的な性質が時点によ

      • 【統計学修士の備忘録】#7 金融統計学とは

        こんにちは、ぽむぽむです。機械学習のテストが終わりほっとしていますが、今度は金融統計の試験勉強が始まりました。 実は私の修士のコースは MSc Statistics (Financial Statistics) というカッコ付きのものでして、統計学修士の中の金融統計コース(?)みたいな感じになっています。一般の統計学コースの学生たちともほとんど同じ授業を取りますが、(Financial Statistics) 付きの学生たちは金融データに関連する授業を必修で受けなくてはなり

        • 【統計学修士の備忘録】#6 サポートベクターマシン

          こんにちは、ぽむぽむです。今日は名前がかっこいい Support Vector Machine(SVM)について学習したことを記録します。日本語では何と呼ばれているのでしょうか…。調べても出てこなかったので気になります。 SVMの基本的な考え方は、データを境界線の様なもので区切ることです。二次元のデータだったら、こんな風に区切れたら嬉しいですよね。 ところがどっこい、現実世界ではそうは問屋が卸さない。データが入り乱れていて、簡単に2つに分けられないことがほとんどです。そこ

        【ディキンソン 勝手に和訳集】#1

          【統計学修士の備忘録】#5 主成分分析

          こんにちは、ぽむぽむです。今回はデータの次元を削減する上で主成分分析(PCA)がどの様に役立つのか記録します。 結論からいうと、PCAは元々あった予測変数を組み合わせて、元より少ない数の新しい変数たちを作るのですが、この新しい変数たちは可能な限り分散が大きくなっており、また、互いに無相関です。こうすることで、多くの変数を含む元データの分散を、少ない変数の分散でカバーできるのです。 手順は以下の通りです。元の変数たちを$${X_{1}, …, X_{p}}$$をすると、最初

          【統計学修士の備忘録】#5 主成分分析

          【統計学修士の備忘録】#4 最小二乗法からの卒業

          こんにちは、ぽむぽむです。いよいよ明日試験ですが、大丈夫そうな気がしてきました。ちなみに明日の試験が終わったら今度は Financial Statistics という科目の勉強が始まるので、機械学習系の話は今日で一旦終わりにしたいと思います。 今回は線形回帰において、最小二乗法では上手くパラメータを推定できない場合に使う方法について記録します。ずばり、それは予測変数が多すぎる場合です。そのような場合、分散大&オーバーフィットによって予測の精度が落ちるというデメリットに加えて

          【統計学修士の備忘録】#4 最小二乗法からの卒業

          【統計学修士の備忘録】#3 同じモデルを色んなデータで試してみる

          こんにちは、ぽむぽむです。試験日が近づいているので、鬼のスピードで復習しています。 今回は、リサンプリングについてです。名前の通りトレーニングデータから何回もサンプリングして再度モデルをフィットしていくことで、そのモデルを良いものに仕上げたり、精度を推定したりします。 主に使用されるリサンプリング方法は、Cross Validation(CV、交差検証)と Bootstrap です。 Cross Validation XとYのデータが100個あったとします。Xをもとに

          【統計学修士の備忘録】#3 同じモデルを色んなデータで試してみる

          【統計学修士の備忘録】#2 ロジスティック回帰とLDA

          こんにちは。ポムポムプリンが大好きなぽむぽむです。今回はデータを2種類のクラスに分類にする問題について記録します。 2種類のクラスに分類する問題とは、例えばこのようなものです。ある銀行が今までの顧客の収入と破産履歴のデータを使って、新しい顧客が破産するかどうかを予測するモデルを作りたいとします。この時のアウトカムは破産する or 破産しないの2択(バイナリー)なので2種類のクラスに分類する問題ということになります。 ロジスティック回帰 機械学習に慣れていない人はとりあえ

          【統計学修士の備忘録】#2 ロジスティック回帰とLDA

          【統計学修士の備忘録】 #1 統計学と機械学習の違い

          こんにちは。ポムポムプリンが大好きなぽむぽむです。 東大を卒業後、諸事情あって大嫌いな街ロンドンの大学院で統計学やデータサイエンスを学んでいます。 大学院卒業後にはデータ分析とは関係のない、テック系ですらない業界に就職するので、勉強したことを全部忘れちゃったら嫌だなぁということで備忘録を書くことにしました。 今は試験のために Machine Learning and Data Mining という科目の復習をしているのですが、実は私、この授業が始まった頃は統計学と機械学習

          【統計学修士の備忘録】 #1 統計学と機械学習の違い