CycleGANとは？ディープラーニングで馬をシマウマに変換する仕組みの解説

2022年11月17日 22:24

この記事で学ぶこと

CycleGANは馬の画像からシマウマの画像へ変換したり、その逆方向（シマウマから馬）の変換をするデモで有名です。今回はこのCycleGANの仕組みを解説します。

しかし、pix2pixでも似たようなことが可能でした。CycleGANでは何が異なるのでしょうか？

実は、CycleGANはpix2pixでの幾つかの不都合を解決しており、それらの問題点を知ることでCycleGANの仕組みが理解しやすくなります。

以下に詳しく説明します。

pix2pixでは「画像から画像への翻訳」と称して、画像の内容を違うスタイルに変換することが可能です。例えば、スケッチ画像から写真のような画像を生成できます。

しかし、pix2pixは教師あり学習を使うので、訓練用に２つの画像をペアにしたものをたくさん用意する必要がありました。

画像変換用のデータセットで入力画像と正解画像が１対１になっているものがそんなにたくさん存在するわけでもありません。未知の画像変換を実現したくとも、訓練そのものよりもデータを集めることの方が大変になります。

教師あり学習では共通の悩みどころではありますが、pix2pixに存在する不都合の一つ目です。

pix2pixでは生成ネットワークを一つだけ訓練します。

たとえば、白黒のスケッチからカラーの画像を生成するネットワークを訓練したとします。

カラー画像から白黒のスケッチへの逆変換をするためには、新たにpix2pixの訓練をする必要があります。

同じデータセットを使って２度訓練を繰り返すことになります。両方向の画像変換のために２つの生成ネットワークを同時に訓練したほうが効率的です。

まとめると、pix2pixでは教師ありデータを集めるのが大変なのと、両方向の生成ネットワークを作る際に倍の時間がかかるといった不都合があります。

その一方で、CycleGANは教師なし学習で２つの生成ネットワークを同時に訓練できる仕組みになっています。

3,613字 / 12画像

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング関連の用語説明、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

この記事が気に入ったらサポートをしてみませんか？