kyo

生物統計学を修士課程で学んでいます。が、 Noteではそれ以外のことを書きたいと思って…

kyo

生物統計学を修士課程で学んでいます。が、 Noteではそれ以外のことを書きたいと思ってます。笑 キカイガクシュとか、

マガジン

  • CourseraML受講記録まとめ。

    Courseraの機械学習コースの受講記録です。 当時は機械学習・数理統計はモチロン、行列演算についても未学習であり、少々ヘンな所がありますが・・。気が向き次第修正していきます。

記事一覧

ホーテー式って、スゲーて話

 先日、経理系に勤める身内の人に、ある相談を受けた。 「変な注文されちゃって、普通の計算式に当てはまらないのよ、なんかエクセルで上手い様にできない?」 条件は、 …

kyo
3年前

CourseraMLweek11で紛らわしかったところ(Artificial data,OCR,ceiling analysis)

自分にとってPhoto OCR problemはそこまで興味が湧かなかったので、順番前後します。 trainingデータ数を増やしたいとき、どうするか 例えばPhoto OCR problem の時、元…

kyo
4年前
1

CourseraMLweek10で紛らわしかったところ(Stochastic Gradient Descent,mini-batch,map reduce)

Stochastic Gradient Descent 大規模データを使うことができればそりゃいいが、計算量が膨大になる。 また、たとえば1億のセットがあったとして、1000くらいのセット…

kyo
4年前
2

CourseraMLweek9で紛らわしかったところ(Anomaly,recommendersystem)

例えば、エンジンの品質管理部門で働いているとして、どうやって効率良く変なモノを見つけるか、。 x1にheat, x2にvibrationをとったとして、なんとなく集団の中にある…

kyo
4年前
2

CourseraWeek8で紛らわしかったところ(K-mean, PCA)

K-mean法 教師なし学習で、クラスタリングの一つ。 1.クラスター重心(centroid)を決める。(上記は2点) 2.どっちのcentroidに近いかで、クラスタ分けをする。 …

kyo
4年前

CourseraMLweek7で紛らわしかったところ(SVM,kernel)

SVM with kernelsを五行で、、 Training setのxをランドマークl(L)として置く、カーネル関数を使い、validation set のxとlとの距離を取る。y(validation set)を使って…

kyo
4年前
1

CourseraMLweek6で紛らわしかったところ(evaluating hθ,bias vs variance,how to choose λ)

スンマセン、何もかも全部独学なので、用語がちょくちょくおかしいカモ(特に大学範囲の数学用語) Evaluating hθ__1, トレーニングセットをランダムに7:3にわける。(tr…

kyo
4年前

CorseraMLweek5で紛らわしかったところ(Backprop)

ニューラルネットとは… 1,Thetaをランダムに初期化 2,Feed propagation を使ってhθを求める 3,hθを使ってJを求める 4,back propagation を使ってΔJを求める(偏微分) …

kyo
4年前

CouseraMLweek4の紛らわしかったところ(Neural network)

式のあたりしっかり覚えたい θの値によって、Y=x1 AND x2 とか表せられますよって話。ちょい感動した —プログラミング課題— One vs all課題が難しかった。。 hθ=…

kyo
4年前

CourseraMLweek3の紛らわしかったところ(fminunc)

-fminunc- Week4の課題になって急にわからなくなりました。 -ここからは単なる自分用メモ- __Binary classification __h=g(Xθ) J(θ)=(1/m)(-y’log(h)-(1-y)’log(1-…

kyo
4年前

CourseraMLweek1,2の紛らわしかったところ

week1,2はただのメモになってます・・。気が向き次第編集します。 Gradient descent でhθが知りたいワ! →θ’x Normal equationでθが知りたいワ! →pinv(X’X)X’y …

kyo
4年前
2

ホーテー式って、スゲーて話

 先日、経理系に勤める身内の人に、ある相談を受けた。
「変な注文されちゃって、普通の計算式に当てはまらないのよ、なんかエクセルで上手い様にできない?」

条件は、
手取り(入力)+ 消費税 = 差し引き手取り(output)

消費税は入力(手取り)から計算するのではなく、”わからない変数”である”報酬”の10% 
源泉税は、”報酬”が100万円以下の場合、報酬の10.21%、100万円を超す場合

もっとみる

CourseraMLweek11で紛らわしかったところ(Artificial data,OCR,ceiling analysis)

自分にとってPhoto OCR problemはそこまで興味が湧かなかったので、順番前後します。

trainingデータ数を増やしたいとき、どうするか

例えばPhoto OCR problem の時、元のデータと似せて人工的にtraining exampleを作ることができる。PCにダウンロードされているような膨大な数のフォントを用いて。

また、元データをわざと歪ませて、training e

もっとみる

CourseraMLweek10で紛らわしかったところ(Stochastic Gradient Descent,mini-batch,map reduce)

Stochastic Gradient Descent

大規模データを使うことができればそりゃいいが、計算量が膨大になる。
また、たとえば1億のセットがあったとして、1000くらいのセットを無作為抽出して、high variance 問題か、high bias 問題か学習曲線をプロットしてみて確認する必要がある。
(J cv と J training について、x軸をtraining size

もっとみる

CourseraMLweek9で紛らわしかったところ(Anomaly,recommendersystem)



例えば、エンジンの品質管理部門で働いているとして、どうやって効率良く変なモノを見つけるか、。

x1にheat, x2にvibrationをとったとして、なんとなく集団の中にある点はOKで集団から離れているものだけ追加のテストを行うなど決めよう。

つまり、Model P(x) を算出し、それがある値εより小さければアノマリーだとフラグ付けをしよう。(帰無仮説を棄却する的な・・?)

P(x)

もっとみる

CourseraWeek8で紛らわしかったところ(K-mean, PCA)



K-mean法

教師なし学習で、クラスタリングの一つ。

1.クラスター重心(centroid)を決める。(上記は2点)

2.どっちのcentroidに近いかで、クラスタ分けをする。

3.それぞれのクラスタの値の平均をとり、その平均の場所にcentroidを移動させる。

1~3を繰り返し、移動しなくなったらおわり。

Cluster centroid を決めるアルコリズムは、、

re

もっとみる

CourseraMLweek7で紛らわしかったところ(SVM,kernel)

SVM with kernelsを五行で、、

Training setのxをランドマークl(L)として置く、カーネル関数を使い、validation set のxとlとの距離を取る。y(validation set)を使ってθを調整し、何処までの距離なら陽性、どこまで離れていたら陰性と判定すればエラーが最小になるか学習させる。あと、正則化のCも同時に。

ロジスティック回帰min 1/m *

もっとみる

CourseraMLweek6で紛らわしかったところ(evaluating hθ,bias vs variance,how to choose λ)

スンマセン、何もかも全部独学なので、用語がちょくちょくおかしいカモ(特に大学範囲の数学用語)

Evaluating hθ__1, トレーニングセットをランダムに7:3にわける。(training set : test set)
2, Training set でΘを学習させる。(min Jθ となるような )
3, エラー関数的なものを使う。つまり、
y = { 0,1} , {if hθ

もっとみる

CorseraMLweek5で紛らわしかったところ(Backprop)

ニューラルネットとは…
1,Thetaをランダムに初期化
2,Feed propagation を使ってhθを求める
3,hθを使ってJを求める
4,back propagation を使ってΔJを求める(偏微分)
5,微分チェック
6,JとΔJを用いて最適化処理
の工程のことである。

Back propagation ___delta(l)j=error of node j in layer

もっとみる

CouseraMLweek4の紛らわしかったところ(Neural network)



式のあたりしっかり覚えたい

θの値によって、Y=x1 AND x2 とか表せられますよって話。ちょい感動した

—プログラミング課題—

One vs all課題が難しかった。。

hθ= g(X*θ’)
Prediction = column vector containing the max value of each row (hθ)

多分。。

CourseraMLweek3の紛らわしかったところ(fminunc)

-fminunc-

Week4の課題になって急にわからなくなりました。

-ここからは単なる自分用メモ-

__Binary classification __h=g(Xθ)
J(θ)=(1/m)(-y’log(h)-(1-y)’log(1-h)

Gradient Descent
θ= θ-(α/m)X’(g(Xθ)-y)

 J(θ)の偏微分
ΔJ(θ)=(1/m)X’(g(Xθ)-

もっとみる

CourseraMLweek1,2の紛らわしかったところ

week1,2はただのメモになってます・・。気が向き次第編集します。

Gradient descent でhθが知りたいワ!
→θ’x
Normal equationでθが知りたいワ!
→pinv(X’X)X’y

サンプル数1だワ!
→hθ=θ’x
サンプル数>1だワ!
→hθ=Xθ
(多分θ’xって、ただのXθの導入で、実際に使う場面なさそうだよね、、?)

一応ド忘れした時に見たいので個人

もっとみる