2020年時点で最も注目される生成モデル

2020年12月4日 17:46

こんにちは。スキルアップAI編集部です。

ディープラーニングを用いた塗り絵の着色の研究では、塗り絵からディープラーニングを用いて着色画像を生成することを目的としていて、このように入力データから新たに別のデータを作り出すタスクを生成タスクと呼びます。そして生成タスクは近年研究が非常に活発で、画像・音声・自然言語など各分野で成果が上がっています。
そこで今回は、生成タスクについて画像生成モデルを例に挙げながらお話していきます。

1.GANによる画像生成

生成タスクに関する研究が盛んになっている背景の一つに敵対的生成ネットワーク(Generative adversarial network:GAN)[1]があります。GANはGoodfellowらが2014年に発表した生成タスクを処理する深層学習モデルで、generator(生成器)とdiscriminator(判別器)の２つのネットワークから成り立っています(GANの概要についてはこちらの記事をご覧ください)。
近年の生成タスクの研究では、このGANのモデル構造がよく用いられています。これは画像分野も例外ではなく、汎用な画像変換を行うpix2pix[2]や文章から画像を生成するStackGAN[3]、写真をアニメ風に変換するCartoonGAN[4]など様々な画像生成モデルが存在します。

図1：様々な画像変換（pix2pix）
（参考文献[2]より引用）

図2：文章からの画像生成（StackGAN）
（参考文献[3]より引用）

図3：写真のアニメ風変換（CartoonGAN）
（参考文献[4]より引用）

2.StyleGAN

図4：StyleGANによる生成画像
（参考文献[5]より引用）

まずは図4の画像をご覧ください。実はこの写真はすべてStyleGAN[5]というGANによって生成されたものなのです。この驚くべき解像度とリアリティを持った画像を生成するStyleGANの構造は以下のようになっています。

図5：StyleGANのgenerator構造
（参考文献[5]より引用）

以下ではStyleGANの特徴的な部分について話していきたいと思います。

まず、StyleGANでは高解像度な画像を生成するためにprogressive growing[6]というアプローチをとっています。progressive growingとは、GANの学習過程において、低解像度の学習から初めて、モデルに徐々に高い解像度に対応した層を加えながら学習を進めることで高解像度画像の生成を可能にするというものです。図6では初めに4×4の学習から始め、次に8×8の層を追加というように学習を進めていくことで最終的に1024×1024の画像を生成しています。

加えてStyleGANはAdaptive Instance Normalization(AdaIN）[7]という正規化手法を用いています。図５を見てみると、StyleGANではベクトルｗがAdaINを通して各層に適用されています。このｗは潜在表現と呼ばれるスタイルの決定要素ｚを非線形変換したものです。StyleGANではこのAdaINの処理によって生成画像のスタイル変換が行われます。
図7では２つのベクトルｗを使用した結果を示しています。上段は生成に使用するwの値を低解像度の段階画像Aを生成するようなｗ（以下w_a）から画像Bを生成するようなｗ（以下w_b）に切り替えた場合の生成画像です。同様に中段は中解像度の生成段階でw_aからw_bに切り替えた際の生成画像、下段は高解像度の生成段階でw_aからw_bに切り替えた際の生成画像となります。この結果から２つのベクトルを変えるタイミングによってそれぞれのベクトルが生成画像に与える影響が変わっていることが見て取れます。また、AdaINほど生成画像に影響を与えはしないのですが、StyleGANではランダムノイズを各層に取り入れています。
図８ではランダムノイズが生成画像の髪の毛など一部分に影響を与えていることが確認できます。

図6：progressive growingの概要図
（参考文献[6]より引用）

図7：2つの画像ソースによる画像生成
（参考文献[5]より引用）

図8 ：ノイズが画像に与える影響

3.StyleGAN2

StyleGANは画像生成で非常に優れた結果を残しました。しかし同時に、dropletと呼ばれるノイズが生じる問題（図9）や生成画像の特徴の一部が不自然になる問題（図10）も存在していました。そこでStyleGANを改良し、これらの問題を解消したのがStyleGAN２[8]です。

図9：dropletの発生
（参考文献[8]より引用）

図10：顔の向きに関わらず正面を向いて生成される歯
（参考文献[8]より引用）

まずStyleGAN２ではAdaINの構造を改変することでdroplet問題を解消しています。StyleGANではAdaINによって実際のデータの平均と標準偏差を用いた正規化が行われていました。これがdropletの原因であると考えた著者たちは、StyleGAN２においてデータの分布を仮定し標準偏差のみで正規化を行うことで、図11のようにdropletが発生しない画像生成を実現しました。

図11：dropletの発生していない画像(StyleGAN２）
（参考文献[8]より引用）

次にStyleGAN2では特徴の一部が不自然な状態で生成される問題を解消するためにprogressive growingの構造を使うことをやめています。その代わりにStyleGAN2ではネットワークにresidual networks9などのスキップ構造を取り入れることでモデルの表現力を上げています（residual networksについてはこちらの記事もご覧ください）。progressivegrowingをやめることで、StyleGAN2では目や歯などの特徴と全体の整合性がとれた画像（図12)を生成することができるようになりました。

図12：目や歯の向きが顔の向きとそろっている画像（StyleGAN2）
（参考文献 StyleGAN2: Near Perfect Human Face Synthesis…and More
(https://www.youtube.com/watch?v=SWoravHhsUU&ab_channel=TwoMinutePapers）
より引用）

4.まとめ

今回は生成タスクとしてStyleGAN、StyleGAN2をご紹介しました。冒頭でもお話ししましたが、生成タスクに関する研究はここ数年で非常に活発になっています。そのため今回ご紹介した画像生成だけでなく、音声や自然言語の分野でも様々な生成タスクの研究結果が発表されていています。この記事を読んだ皆様にはぜひ画像のみでなく様々な分野の生成タスクにも興味を持っていただければ幸いです。

スキルアップAIでは、2021年1月にGAN（敵対的生成ネットワーク）講座を開講します。この講座では、様々なGANを学ぶことができます。是非ご検討ください。また、GANを深層学習の基礎から学びたいという方は、現場で使えるディープラーニング基礎講座をご検討ください。

5.参考文献

[1] I. Goodfellow et al., “Generative adversarial nets,” in Proc. Int. Conf. Neural Inf. Process.Syst.Syst., 2014, pp. 2672 2680.
[2] P. Isola et al., Image-to-image translation with conditional adversarial networks. In The IEEE Conference on Computer Vision and Pattern Recog nition (CVPR), July 2017.
[3] Han Zhang et al. “StackGAN: Text to Photo realistic Image Synthesis with Stacked Generative Adversarial Networks” ICCV 2017 Oral Presentation.
[4] Y. Chen et al., “Cartoongan: Generative adversarial networks for photo cartoonization,” in 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 2018,pp. 9465 9474
[5] T. Karras et al. “A Style Based Generator Architecture for Generative Adversarial Networks” CVPR 2019 final version
[6] T. Karras et al. “Progressive growing of GANs for improved quality, stability, and variation.” CoRR, abs/1710.10196, 2017.
[7] X. Huang et al . “Arbitrary style transfer in real time with adaptive instance no rmalization. CoRR, abs/1703.06868, 2017.
[8] T.Karras et al. “Analyzing and Improving the Image Quality of StyleGAN”
[9] Kaiming He et al. “Sun. Deep residual learning for image recognition.” CoRR, abs/1512.03385 ,

この記事が気に入ったらサポートをしてみませんか？