kyo

生物統計学を修士課程で学んでいます。が、 Noteではそれ以外のことを書きたいと思って…

kyo

生物統計学を修士課程で学んでいます。が、 Noteではそれ以外のことを書きたいと思ってます。笑 キカイガクシュとか、

マガジン

  • CourseraML受講記録まとめ。

    Courseraの機械学習コースの受講記録です。 当時は機械学習・数理統計はモチロン、行列演算についても未学習であり、少々ヘンな所がありますが・・。気が向き次第修正していきます。

最近の記事

ホーテー式って、スゲーて話

 先日、経理系に勤める身内の人に、ある相談を受けた。 「変な注文されちゃって、普通の計算式に当てはまらないのよ、なんかエクセルで上手い様にできない?」 条件は、 手取り(入力)+ 消費税 = 差し引き手取り(output) 消費税は入力(手取り)から計算するのではなく、”わからない変数”である”報酬”の10%  源泉税は、”報酬”が100万円以下の場合、報酬の10.21%、100万円を超す場合、超した分だけ20.42%。 報酬 + 消費税 - 源泉税 = 差し引き手取り(

    • CourseraMLweek11で紛らわしかったところ(Artificial data,OCR,ceiling analysis)

      自分にとってPhoto OCR problemはそこまで興味が湧かなかったので、順番前後します。 trainingデータ数を増やしたいとき、どうするか 例えばPhoto OCR problem の時、元のデータと似せて人工的にtraining exampleを作ることができる。PCにダウンロードされているような膨大な数のフォントを用いて。 また、元データをわざと歪ませて、training exampleとすることも考えられる。 こんな感じに。1個だった元データを歪ませ

      • CourseraMLweek10で紛らわしかったところ(Stochastic Gradient Descent,mini-batch,map reduce)

        Stochastic Gradient Descent 大規模データを使うことができればそりゃいいが、計算量が膨大になる。 また、たとえば1億のセットがあったとして、1000くらいのセットを無作為抽出して、high variance 問題か、high bias 問題か学習曲線をプロットしてみて確認する必要がある。 (J cv と J training について、x軸をtraining size , y軸をerror) → high variance問題ならsetを足すことで

        • CourseraMLweek9で紛らわしかったところ(Anomaly,recommendersystem)

          例えば、エンジンの品質管理部門で働いているとして、どうやって効率良く変なモノを見つけるか、。 x1にheat, x2にvibrationをとったとして、なんとなく集団の中にある点はOKで集団から離れているものだけ追加のテストを行うなど決めよう。 つまり、Model P(x) を算出し、それがある値εより小さければアノマリーだとフラグ付けをしよう。(帰無仮説を棄却する的な・・?) P(x)をどうやって算出するか。 それぞれのtraining set に正規分布を仮定

        ホーテー式って、スゲーて話

        • CourseraMLweek11で紛らわしかったところ(Artificial data,OCR,ceiling analysis)

        • CourseraMLweek10で紛らわしかったところ(Stochastic Gradient Descent,mini-batch,map reduce)

        • CourseraMLweek9で紛らわしかったところ(Anomaly,recommendersystem)

        マガジン

        • CourseraML受講記録まとめ。
          10本

        記事

          CourseraWeek8で紛らわしかったところ(K-mean, PCA)

          K-mean法 教師なし学習で、クラスタリングの一つ。 1.クラスター重心(centroid)を決める。(上記は2点) 2.どっちのcentroidに近いかで、クラスタ分けをする。 3.それぞれのクラスタの値の平均をとり、その平均の場所にcentroidを移動させる。 1~3を繰り返し、移動しなくなったらおわり。 Cluster centroid を決めるアルコリズムは、、 repeat{ for i = 1 to m c(i) <- index( fr

          CourseraWeek8で紛らわしかったところ(K-mean, PCA)

          CourseraMLweek7で紛らわしかったところ(SVM,kernel)

          SVM with kernelsを五行で、、 Training setのxをランドマークl(L)として置く、カーネル関数を使い、validation set のxとlとの距離を取る。y(validation set)を使ってθを調整し、何処までの距離なら陽性、どこまで離れていたら陰性と判定すればエラーが最小になるか学習させる。あと、正則化のCも同時に。 ロジスティック回帰min 1/m * Σ[y * (-log(h)) + (1-y)* ( ( -log ( 1-h

          CourseraMLweek7で紛らわしかったところ(SVM,kernel)

          CourseraMLweek6で紛らわしかったところ(evaluating hθ,bias vs variance,how to choose λ)

          スンマセン、何もかも全部独学なので、用語がちょくちょくおかしいカモ(特に大学範囲の数学用語) Evaluating hθ__1, トレーニングセットをランダムに7:3にわける。(training set : test set) 2, Training set でΘを学習させる。(min Jθ となるような ) 3, エラー関数的なものを使う。つまり、 y = { 0,1} , {if hθ(xtest) != ytest →1 , otherwise →0} no

          CourseraMLweek6で紛らわしかったところ(evaluating hθ,bias vs variance,how to choose λ)

          CorseraMLweek5で紛らわしかったところ(Backprop)

          ニューラルネットとは… 1,Thetaをランダムに初期化 2,Feed propagation を使ってhθを求める 3,hθを使ってJを求める 4,back propagation を使ってΔJを求める(偏微分) 5,微分チェック 6,JとΔJを用いて最適化処理 の工程のことである。 Back propagation ___delta(l)j=error of node j in layer l L = total no of layer Feed propagati

          CorseraMLweek5で紛らわしかったところ(Backprop)

          CouseraMLweek4の紛らわしかったところ(Neural network)

          式のあたりしっかり覚えたい θの値によって、Y=x1 AND x2 とか表せられますよって話。ちょい感動した —プログラミング課題— One vs all課題が難しかった。。 hθ= g(X*θ’) Prediction = column vector containing the max value of each row (hθ) 多分。。

          CouseraMLweek4の紛らわしかったところ(Neural network)

          CourseraMLweek3の紛らわしかったところ(fminunc)

          -fminunc- Week4の課題になって急にわからなくなりました。 -ここからは単なる自分用メモ- __Binary classification __h=g(Xθ) J(θ)=(1/m)(-y’log(h)-(1-y)’log(1-h) Gradient Descent θ= θ-(α/m)X’(g(Xθ)-y)  J(θ)の偏微分 ΔJ(θ)=(1/m)X’(g(Xθ)-y) __Regulation__J(θ)=(1/m)(-y’log(h)-

          CourseraMLweek3の紛らわしかったところ(fminunc)

          CourseraMLweek1,2の紛らわしかったところ

          week1,2はただのメモになってます・・。気が向き次第編集します。 Gradient descent でhθが知りたいワ! →θ’x Normal equationでθが知りたいワ! →pinv(X’X)X’y サンプル数1だワ! →hθ=θ’x サンプル数>1だワ! →hθ=Xθ (多分θ’xって、ただのXθの導入で、実際に使う場面なさそうだよね、、?) 一応ド忘れした時に見たいので個人用メモも。 Cost function、Gradient Descentのvec

          CourseraMLweek1,2の紛らわしかったところ