Andrew先生の分かりやすすぎるMachine Learning パート② （ともし）

Corpy & Co.

2020年11月20日 16:53

どうも、おしとやか関西人のともしです〜パート1の続きです！

コスト関数が分かったとして、じゃあどうやってコストの最小値を見つけ出すんや？という問いに答えていきたいと思います〜

コストの最小値を見つけ出す2つの方法

1. 最急降下法（Gradient Descent）
2. 正規方程式（Normal Equation）

今回は1の最急降下法についてお話ししていきたいと思います！

微分のおさらい

この最急降下法では微分の考え方を用います。微分についてサクッとおさらいしてみます。

について考えます。

微分するとこうなります。
これはどういうことかというと、グラフの各点における傾きを表しています。

例えば
・x = 0の時、2x = 0 なので、
f(x)のグラフはx = 0の時（つまり点（0, 0）の時）、接線の傾きは「0」です。

同様に
・x = 0.5の時、 2x = 1なので、
f(x)のグラフはx = 0.5の時（つまり点（0.5, 0.25）の時）、接線の傾きは「1」です。

グラフ上のある点（p, q）の接線の傾きは、
グラフの方程式を微分したものにおいて、xにpを代入して得られる値になります。

そしてこの仕組みは、「出力yに対して変数がxの1つのみである2次元のグラフ」だけでなく、今回のような「出力Jに対して変数がθ0, θ1の2つ存在する3次元のグラフ」や、高次元においても成り立ちます。

最急降下法

ゴール: 下のコストのグラフから、コストが最小となるような（つまりグラフの最下点における）θ0, θ1の値

最急降下法のイメージは、「山のある地点から、とにかく下を目指して歩いていく」という状態です。

さて、微分の前提知識を頭に最急降下法について考えます。
まず初めにランダムなθ0, θ1を選びます。それが、図の赤い部分にある左端のバツだったとします。この時、先程のお話のように微分を行うことで、この点における接線の傾きの値が得られます。つまり、山の傾きですね。この値/傾きは、微分の仕組み上、θo（もしくはθ1）がほんの少しだけ「増えた」時（つまりあなたが前に進んだ時）にどのくらいJが動くか（どのくらい上に行くのか下に行くのか）、という意味なので、微分値が正であれば、前に進むとJは増えるぞ（山を登ることになるぞ）ということです。前に進めば、θ（その地点の座標）は大きくなります。こうして山を下るための一歩一歩を数式にしたのが、以下になります。