高信 真司

amptalkで機械学習エンジニア(VPoD)をやっております。 おもに機械学習に関す…

高信 真司

amptalkで機械学習エンジニア(VPoD)をやっております。 おもに機械学習に関する内容、統計検定1級の学習を目的に記事を書いていきます。

記事一覧

機械学習のバージョンコントロール

 機械学習のバージョンコントロールは、個人的にチャレンジングな領域であると思っております。機械学習モデルの変動要因にはそれを生成するためのコードに加えて、ハイパ…

高信 真司
2年前
2

現代数理統計学の基礎の演習問題(2章問4):MSEとMAEの最小化

現代数理統計学の基礎(久保川達也)の演習問題、2章問4を問いてみました。 問題 回答この問題を解釈すると、前者はMSE(Mean Squared Error)、後者はMAE(Mean Absolute E…

高信 真司
3年前
4

現代数理統計学の基礎の演習問題(2章問7)

現代数理統計学の基礎(久保川達也)の演習問題、2章問7を問いてみました。 問題 式の解釈としては、期待値は累積分布関数からも計算できますよということです。 回答 …

高信 真司
3年前

チェビシェフの不等式をわかりやすく

前回のマルコフの不等式からの続きです。 マルコフの不等式は非負の確率変数に対するものでしたが、これを拡張したものがチェビシェフの不等式であり、非負の確率変数とい…

高信 真司
3年前
10

マルコフの不等式をわかりやすく

期待値から大きく外れるような観測値が得られることは、ほとんどあり得ないと直感的にわかりますが、マルコフの不等式はこれを数学的に記述したものになります。 マルコフ…

高信 真司
3年前
4

ガウス過程って結局なんなのか?

 正規分布からスタートしてガウス過程のおおよそを理解することを目的に記事を書きました。正規分布がどんな分布かなんとなく知っていれば理解ができると思います。 ガウ…

高信 真司
3年前
3

noteにTeXで数式を書こう!

機械学習や統計学に関する記事を書こうとしたときに、数式を書きたくなることがあります。qiitaやはてなブログであればTeXが標準で使えるので問題になることはないのですが…

高信 真司
3年前
23

保育ありのコワーキングスペースを利用する

 子どもの面倒を見ながら仕事(勉強)はなかなか難しい、というかはっきり言って無理だと思っています。まず集中はできませんし、作業が断続的になりますのでミスが発生し…

高信 真司
3年前
8

今日の機械学習論文(2021年2月2日)

2021年2月2日にarxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。 時系列とイベントとの混合データにおける新しい予測手法の提案時…

高信 真司
3年前

今日の機械学習論文(2021年1月7日)

2021年1月7日にarxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。 時系列予測のために本当にDeep Learningが必要なのか?一般にDee…

高信 真司
3年前

今日の機械学習論文(2020年11月17日)

本日(2020年11月17日)arxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。 説明可能な教師あり機械学習の調査論文説明可能な教師あ…

高信 真司
3年前

今日の機械学習論文(2020年11月13日)

本日(2020年11月13日)arxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。 クラスタリングアルゴリズム;Component-wise Peak-Findi…

高信 真司
3年前

今日の機械学習論文(2020年11月5日)

本日(2020年11月5日)arxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。 Residual Likelihood Forests ブースティングとは異なる…

高信 真司
3年前
1

今日の機械学習論文(2020年11月2日)

本日(2020年11月2日)arxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。 時系列回帰の手法の比較帯水層の水位の予測問題に対して…

高信 真司
3年前
1

今日の機械学習論文(2020年10月30日)

本日(2020年10月30日)arxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。 機械学習を用いたテストデータのサイズの予測手法テスト…

高信 真司
3年前

今日の機械学習論文(2020年10月29日)

本日(2020年10月29日)arxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。 分布シフトに対するモデルのロバスト性の評価フレームワ…

高信 真司
3年前
機械学習のバージョンコントロール

機械学習のバージョンコントロール

 機械学習のバージョンコントロールは、個人的にチャレンジングな領域であると思っております。機械学習モデルの変動要因にはそれを生成するためのコードに加えて、ハイパーパラメータやデータセットなど多くのものがあり、これらを統一的に管理するための標準的は方法は無く、データサイエンティストや機械学習エンジニアに任されていることも多いことでしょう。ゆえに、機械学習モデルとそれを生成したコードやデータセットとの

もっとみる
現代数理統計学の基礎の演習問題(2章問4):MSEとMAEの最小化

現代数理統計学の基礎の演習問題(2章問4):MSEとMAEの最小化

現代数理統計学の基礎(久保川達也)の演習問題、2章問4を問いてみました。

問題

回答この問題を解釈すると、前者はMSE(Mean Squared Error)、後者はMAE(Mean Absolute Error)について、それぞれを最小化する推定量は何かというものです。これらの評価基準は機械学習でも頻繁に見られるものですが、そんな問題が何気なく出ていることが興味深いです。

まずはMSEです

もっとみる

現代数理統計学の基礎の演習問題(2章問7)

現代数理統計学の基礎(久保川達也)の演習問題、2章問7を問いてみました。

問題

式の解釈としては、期待値は累積分布関数からも計算できますよということです。

回答

参考現代数理統計学の基礎(久保川達也)
統計学・数理統計学の補足ページ

チェビシェフの不等式をわかりやすく

チェビシェフの不等式をわかりやすく

前回のマルコフの不等式からの続きです。

マルコフの不等式は非負の確率変数に対するものでしたが、これを拡張したものがチェビシェフの不等式であり、非負の確率変数という制限が取り除かれています。

チェビシェフの不等式を導く

マルコフの不等式からスタートします。

分母が大きくなれば推定する範囲がより狭くなりますが、これは線形的です。2次関数的に増加させることを考えて、すべてを2乗します。

ここで

もっとみる
マルコフの不等式をわかりやすく

マルコフの不等式をわかりやすく

期待値から大きく外れるような観測値が得られることは、ほとんどあり得ないと直感的にわかりますが、マルコフの不等式はこれを数学的に記述したものになります。

マルコフの不等式を導くまずは以下のグラフを見てみます。

Xを非負の確率変数、cを非負の任意の定数とします。このとき破線(青色)と実線(赤色)は以下の式で表されます。

いわゆる、破線はステップ関数、実線は恒等関数です。
確率変数の和を考えたとき

もっとみる
ガウス過程って結局なんなのか?

ガウス過程って結局なんなのか?

 正規分布からスタートしてガウス過程のおおよそを理解することを目的に記事を書きました。正規分布がどんな分布かなんとなく知っていれば理解ができると思います。

ガウス過程の定義 多変量正規分布に従う確率変数の集合です。

 一応定義も書いておきましたが、定義だけではイメージがつきにくいとは思うので、詳しく見ていってみましょう。

まずは正規分布から ガウス過程はその名前が示す通りガウス分布(正規分布

もっとみる
noteにTeXで数式を書こう!

noteにTeXで数式を書こう!

機械学習や統計学に関する記事を書こうとしたときに、数式を書きたくなることがあります。qiitaやはてなブログであればTeXが標準で使えるので問題になることはないのですが、noteではTeXは使えません(標準装備されることを強く希望します!)。

私の場合は、ローカルでTeXを使って数式を書いた後に画像に変換し、それをnoteに貼っていました。この方法による問題点は、
 ・TeXコードとnoteが直

もっとみる
保育ありのコワーキングスペースを利用する

保育ありのコワーキングスペースを利用する

 子どもの面倒を見ながら仕事(勉強)はなかなか難しい、というかはっきり言って無理だと思っています。まず集中はできませんし、作業が断続的になりますのでミスが発生したりストレスが増加、というのが私の経験です。

 こんな中どうしても仕事を、という時には一時保育サービスがあります。

 自治体の一時保育もありますが、事前予約が電話のみだったり手続き等が煩雑で利用がしにくい印象を持っています。

 もっと

もっとみる

今日の機械学習論文(2021年2月2日)

2021年2月2日にarxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。

時系列とイベントとの混合データにおける新しい予測手法の提案時間的なデータ(temporal data)には2種類のものがある。1つは時系列データで、たとえば温度や経済インデックスなどがある。他方はイベントデータであり、これにはECのトランザクションなどがある。現実世界にはこれらが混合し

もっとみる

今日の機械学習論文(2021年1月7日)

2021年1月7日にarxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。

時系列予測のために本当にDeep Learningが必要なのか?一般にDeep Learningは比較的シンプルな機械学習と比較して複雑になりすぎる傾向があるが、時系列予測において代替手段が無いか研究を行ったもの。本論では比較手法としてGBRT(Gradient Boosting Re

もっとみる

今日の機械学習論文(2020年11月17日)

本日(2020年11月17日)arxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。

説明可能な教師あり機械学習の調査論文説明可能な教師あり機械学習の定義および最近の方法論やアプローチについてレビューを行っている論文。

今日の機械学習論文(2020年11月13日)

本日(2020年11月13日)arxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。

クラスタリングアルゴリズム;Component-wise Peak-Finding (CPF)本アルゴリズムは以下の特徴を持つ。
・混合データへ適用可能
・外れ値と密度の低いデータが検出可能
・アルゴリズム自身で正しいクラスター数が決定可能
・計算効率性:O(n log n)

もっとみる

今日の機械学習論文(2020年11月5日)

本日(2020年11月5日)arxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。

Residual Likelihood Forests
ブースティングとは異なるアンサンブル手法の提案。ブースティングは加法的であるが、本提案手法では乗法的に組み合わせれる条件付き尤度を生成する。条件付き尤度はグローバルロスを用いて順次最適が行われる。ブースティングと異なり、

もっとみる

今日の機械学習論文(2020年11月2日)

本日(2020年11月2日)arxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。

時系列回帰の手法の比較帯水層の水位の予測問題に対して、古典的な統計手法(ARIMA)と機械学習(LSTM)のアプローチを比較している。実課題にそれぞれを適用し、超短所について議論している。

Deep Generative LDA生成的なモデルを用いてデータを変換し、潜在空間に

もっとみる

今日の機械学習論文(2020年10月30日)

本日(2020年10月30日)arxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。

機械学習を用いたテストデータのサイズの予測手法テストデータの最小量を予測するための機械学習ベースの手法の提案。

Deep Forestsの利点の分析
Deep Forests(複数のRandom ForestをNeural Networkの階層にしたもの)の利点を理論的+数

もっとみる

今日の機械学習論文(2020年10月29日)

本日(2020年10月29日)arxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。

分布シフトに対するモデルのロバスト性の評価フレームワーク機械学習モデルの実運用において、分布シフト(共変量シフト)のように入力の母集団の変化時の挙動の安全性を評価することは重要である。しかし、通常この評価を行うためには複数の独立したデータセットが必要であり、非常にコストがかか

もっとみる