最近の記事
CourseraMLweek11で紛らわしかったところ(Artificial data,OCR,ceiling analysis)
自分にとってPhoto OCR problemはそこまで興味が湧かなかったので、順番前後します。 trainingデータ数を増やしたいとき、どうするか 例えばPhoto OCR problem の時、元のデータと似せて人工的にtraining exampleを作ることができる。PCにダウンロードされているような膨大な数のフォントを用いて。 また、元データをわざと歪ませて、training exampleとすることも考えられる。 こんな感じに。1個だった元データを歪ませ
CourseraMLweek10で紛らわしかったところ(Stochastic Gradient Descent,mini-batch,map reduce)
Stochastic Gradient Descent 大規模データを使うことができればそりゃいいが、計算量が膨大になる。 また、たとえば1億のセットがあったとして、1000くらいのセットを無作為抽出して、high variance 問題か、high bias 問題か学習曲線をプロットしてみて確認する必要がある。 (J cv と J training について、x軸をtraining size , y軸をerror) → high variance問題ならsetを足すことで
マガジン
記事
CourseraMLweek6で紛らわしかったところ(evaluating hθ,bias vs variance,how to choose λ)
スンマセン、何もかも全部独学なので、用語がちょくちょくおかしいカモ(特に大学範囲の数学用語) Evaluating hθ__1, トレーニングセットをランダムに7:3にわける。(training set : test set) 2, Training set でΘを学習させる。(min Jθ となるような ) 3, エラー関数的なものを使う。つまり、 y = { 0,1} , {if hθ(xtest) != ytest →1 , otherwise →0} no