見出し画像

Cold Diffusion:ノイズのいらない画像生成拡散モデルについて

 Stable DiffusionMidjourneyDALL-E2など拡散モデルの画像生成AIが日本でもブームを巻き起こしていますが、先月(2022年8月)19日、拡散モデルに関するこれまでの考え方を覆す驚くべき論文が発表されました。

1.拡散モデルの仕組み

 拡散モデルは、非平衡熱力学から着想を得て、2015年に最初のモデル(拡散確率モデル)が提案されました。
 その後、しばらくあまり注目されていませんでしたが、2020年にカリフォルニア大学バークレー校のジョナサン・ホー氏らがデノイジング拡散確率モデルを発表し、ネットワークアーキテクチャーや学習方法を工夫することによって、変分オートエンコーダー(VAE)や敵対的生成ネットワーク(GAN)ベースの画像生成AIを超える高精度の画像を生成できることを証明して、大きな注目を集めることになりました。

デノイジング拡散確率モデルによって生成された画像

 拡散モデルによる画像生成の基本的な考え方は、以下の通りです。

 画像データに少しずつノイズを加えていくと、画像データはノイズによって少しずつ元の情報を失っていき、最終的には元の情報を完全に失ったノイズそのものになってしまいます。
 このとき、徐々に加えていくノイズの大きさを上手く調節すると、画像データは最終的に正規分布と等しい確率密度関数を持つノイズ(ガウシアンノイズ)に収束します。

 ここで、ノイズを加えていくプロセスを逆向きにたどり、完全なノイズの状態からノイズを少しずつ除去していくことができれば、ノイズの無い元の美しい画像データを生成することができるはずです。
 拡散モデルは、このノイズを除去するプロセスをディープラーニングで上手くモデル化することによって、完全なガウシアンノイズの状態から徐々にノイズを除去していき、新しい画像の生成を可能にしようというものです。

上の矢印がノイズを加えていくフォワードプロセス
下の矢印がノイズを除去していくリバースプロセス

 一般的には、ノイズを加えていくフォワードプロセスは、正規分布のような確率分布を用いて簡単に表現することができますが、その逆にノイズを除去していくリバースプロセスは数式で表現することが困難です。
 しかし、一度に与えられるノイズが少量のガウシアンノイズである場合には、そのリバースプロセスも正規分布で上手く近似できることが知られています。
 そこで、拡散モデルでは、ノイズを除去するリバースプロセスを正規分布でモデル化し、ディープラーニングによって、ノイズを加えた画像データを復元した際の誤差がなるべく小さくなるように学習することにより、高性能な画像生成モデルを実現しています。

リバースプロセス(ノイズ除去プロセス)は正確には把握できないため、
ディープラーニングによってモデルの誤差が小さくなるように学習する。

 こうした手法により、拡散モデルは精度が高い画像データを生成できるようになりましたが、ノイズから少しずつ画像データを復元していく必要があり、何度も同じような処理を繰り返さなければならないため、データを生成するのに時間がかかるという欠点がありました。

 この問題を解決したのが、2022年に発表された潜在拡散モデルです。
 一般的な拡散モデルは、デジタル画像を構成する大量のピクセル(色情報を持つ最小単位)から成るピクセル空間で拡散プロセスを実行しています。
 これに対して、潜在拡散モデルでは、ピクセル空間の情報をVAEなどで圧縮した潜在空間で拡散プロセスを実行することにより、必要なメモリーの量や計算量を減らして、画像生成の処理を高速化しました。

 また、テキストから画像を生成する場合には、CLIPのテキストエンコーダーなどを使用して、プロンプトに入力されたテキストを特徴ベクトルに変換します。なお、CLIPは、2021年にOpenAIが発表した、テキストに対する画像の類似度を測ることによって画像データを分類する画像分類モデルです。
 この特徴ベクトルをノイズ除去モデルに追加入力することによって、テキストの条件に従った画像特徴ベクトルを生成します。
 そして、この画像特徴ベクトルをVAEのデコーダーなどを使用して復元すると、テキストに沿った画像が生成されます。

潜在拡散モデルの仕組み

 なお、潜在拡散モデルを発表したのは、Stable Diffusionを開発したドイツ、ミュンヘンのルートヴィヒ・マクシミリアン大学のコンピューター
ビジョン研究グループCompVisのメンバーです。
 Stable Diffusionは、モデルやコードをオープンソースとして無料公開しただけでなく、高速で動作する高性能の画像生成モデルを個人のPCでも動作するサイズまで小さくして配布したことが重要であり、その実現には、潜在拡散モデルの技術が生かされています。

【参考】What are Diffusion Models? by Lilian Weng


2.Cold Diffusion

 先月(2022年8月)19日、米国メリーランド大学のアルピット・バンサル氏らは、拡散モデルに関するこれまでの考え方を覆すような論文「Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise(冷たい拡散:ノイズなしで任意の画像変換を反転)」を発表しました。

 これまで、拡散モデルについては、正規分布に従うガウシアンノイズを使用しなければ上手くいかないと考えられてきました。
 また、理論的にも、拡散は、ランジュバン動力学を用いた画像密度関数で表されるランダムウォークと理解されるなどノイズのランダム性が不可欠なものと考えられてきました。

 ところが、この論文では、ガウシアンノイズ以外の様々な画像変換でも変換を反転して、拡散モデルによる画像生成が可能であることを示して、拡散モデルにおいてガウシアンノイズの使用が必然ではないことを明らかにし、ノイズのランダム性が必要という点についても疑問を投げかけました。

 実際に、Blur(ぼかし)Animorphosis(動物化)Mask(マスキング)Pixelate(モザイク化)Snowification(雪化)などの様々な画像の変換モデルを作成し、これらの変換を反転するリバースネットワークを訓練して、画像生成を行った結果は、以下の図の通りです。

Cold Diffusionによる画像変換及び画像生成の例

 一番上の段が、通常のガウシアンノイズを使用した拡散モデルです。
 2段目以下のぼかし、動物化、マスキング、モザイク化、雪化でも、上手く画像生成ができていることが分かります。なお、雪化の場合だけ、ほぼ似た顔に復元されています。

 この結果を見ると、拡散モデルにガウシアンノイズを使用することは必然ではなく、ガウシアンノイズを別の画像変換に置き換えても、上手く画像生成ができることが分かります。
 このことから、ガウシアンノイズでなくても、任意の画像変換を採用した拡散モデルの作成が可能となり、それぞれのモデルの特徴を生かして、幅広いアプリケーションに活用する道が開けます。今後の拡散モデルの発展の可能性が大きく広がったと言えるでしょう。
 
 また、ぼかしやマスキングのようなランダム性のない決定論的な画像変換を使用する場合でも、簡単に一般化した画像生成モデルを作成できることから、ノイズのランダム性は必要ではなく、これまでの拡散モデルに関する理解に疑問を投げかけ、任意のプロセスを反転させる一般化拡散モデルの道を開きました。この議論を突き詰めていけば、さらに色々な分野への応用が可能になると考えられます。

 なお、研究者向けですが、Cold Diffusionモデルのコードは、以下のGitHubのページで公開されています。



【参考図書】

 3冊とも今年出版されたPreferred Networks共同創業者の岡野原大輔氏の著作です。画像生成AIなど最近のディープラーニング技術の動向も紹介しており、ディープラーニングの基礎から最先端の技術や将来の課題までを網羅的に学べる本だと思います。



この記事が気に入ったらサポートをしてみませんか?