LSGANはなぜ学習が安定するのか？

2023年6月7日 01:59

Least Squares GAN（LSGAN）とは？

Generative Adversarial Network（GAN）[1]は、一般的に学習が不安定であることが知られています。学習が不安定になる原因として、JS Divergenceの最小化に基づくGANでは、勾配消失が起きやすいことが挙げられます[2]。LSGAN[3]は、GANの損失関数を最小二乗誤差にすることで、この問題の解決を目指したGANです。

GANの勾配消失

GAN[1]は、識別器の損失関数にシグモイドクロスエントロピー誤差を用いています。識別器はシグモイド関数で出力を0~1に変換し、1に近いほど本物、0に近いほど偽物という判別を行います。一方生成器は、識別器に0.5に近い値を出力させて、本物か偽物かを分からなくすることが目的です。生成器から生成された合成データを識別器が1に近い本物と判別した場合、生成器は勾配を更新する必要があります。しかし、このときシグモイド関数を用いているために勾配消失が発生してしまいます。これが問題であると[3]は指摘しています。

LSGANの数式

LSGANの目的関数を以下に示します。

$$
\min V_{LSGAN}(D)= \frac{1}{2}\mathbb{E}_{x \backsim p_{data}(x)}[{(D(x)-b)}^2] + \frac{1}{2} \mathbb{E}_{z \backsim p_{z}(z)} [{(D(G(z)) -a)}^2]
$$

$$
\min V_{LSGAN}(G) = \frac{1}{2} \mathbb{E}_{z \backsim p_{z}(z)}[{(D(G(z)) -c)}^2]
$$

$${a}$$、$${b}$$はそれぞれ、偽物データと本物データに対応しています。$${c}$$は生成器が識別器に信じさせたい値です。上の目的関数は以下の式と同じ意味です。

$$
\min V_{LSGAN}(D)= \frac{1}{2}\mathbb{E}_{x \backsim p_{data}(x)}[{(D(x)-b)}^2] + \frac{1}{2} \mathbb{E}_{z \backsim p_{z}(z)} [{(D(G(z)) -a)}^2]
$$

$$
\min V_{LSGAN}(G) =\frac{1}{2}\mathbb{E}_{x \backsim p_{data}(x)}[{(D(x)-c)}^2] + \frac{1}{2} \mathbb{E}_{z \backsim p_{z}(z)}[{(D(G(z)) -c)}^2]
$$

なぜなら、$${\frac{1}{2}\mathbb{E}_{x \backsim p_{data}(x)}[{(D(x)-c)}^2]}$$には、生成器のパラメータが含まれていないためです。生成器のパラメータを固定したときの識別器の最適解は以下の式になります。

$$
D^{*}(x) = \frac{b{p_{data}(x)} + a{p_g}(x)}{p_{data}(x) + p_g(x)}
$$

この式を生成器の式に代入します。

$$
2C(G) = \mathbb{E}_{x \backsim p_{data}}[{(D^{*}(x)-c)}^2]+\mathbb{E}_{x \backsim p_{g}}[{(D^{*}(x)-c)}^2]
$$

この式を解くと、以下の式が得られます。

$$
2C(G) = \int_\chi \frac{{((b-c)(p_{data}(x)+p_{g}(x)) - (b-a)p_{g}(x))}^2}{p_{data}(x)+p_{g}(x)}dx
$$

$${b-c=1}$$、$${b-a=2}$$としたとき、

$$
2C(G) = \int_\chi \frac{({2p_{g}(x)-(p_{data}(x)+p_{g}(x)))}^2}{p_{data}(x)+p_{g}(x)}dx
$$

$$
= \chi^2_{ Pearson}(p_{d} + p_{g}||2p_{g})
$$

となり、$${\chi^2}$$ Divergenceの最小化問題に帰結します。LSGANは、シグモイド関数を利用しないため、勾配消失が起こりにくく、学習を安定化させることに成功しました。

おわりに

今回は、LSGANの仕組みについて簡単に説明しました。$${\chi^2}$$ Divergenceについてまだ勉強が足りておらず、しっかり理解したとは言い難いです。数式の理解には時間がかかりますね。以上、久々の投稿でした。

参考文献

Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, and K.Q. Weinberger, editors, Advances in Neural Infor- mation Processing Systems, Vol. 27. Curran Associates, Inc., 2014.
Martin Arjovsky and L ́eon Bottou. Towards principled methods for train- ing generative adversarial networks. arXiv preprint arXiv:1701.04862, 2017.
Xudong Mao, Qing Li, Haoran Xie, Raymond YK Lau, Zhen Wang, and Stephen Paul Smolley. Least squares generative adversarial networks. In Proceedings of the IEEE international conference on computer vision, pp. 2794–2802, 2017.

この記事が気に入ったらサポートをしてみませんか？