この動画では、新しいAI技術「Stable Diffusion XL Turbo」について説明しています。この技術は、通常多くのステップを要する高品質な画像生成を、わずか数ステップで実現します。また、テキストや画像からの変換も可能です。自動運転車のトレーニングにも応用でき、NVIDIAのAIを使って実際の運転データから新しいシナリオを生成することが可能です。リアルなシミュレーションを作成し、従来の技術を上回る速さと品質で注目されています。
公開日:2023年12月24日
※動画を再生してから読むのがオススメです。
素晴らしい論文でした、同僚の学者の皆さん!
Stable Diffusion XL Turbo。
なぜかって?
というのも、今日、われわれは素晴らしいコンピューターゲームやシミュレーションを高速で実行している。
一方、オフラインのシミュレーションは、1フレームあたり秒単位で、より低速で実行されます。
そして現在では、1秒間に何匹という単位で計測できるAI技術があります。
1秒間に何匹もの猫を作ることができるのです。
驚くことに、これは自動運転車の訓練にも役立つかもしれません。
さらに、この新しいツールを今すぐ試すこともできます。
そして、この素晴らしい新しい技術についても話しましょう。それも無料で試すことができます!
なんてクールなんだ
さて、この猫のようなものは何でしょう?
これはStable Diffusion XL Turboで、人気のオープンソーステキスト画像変換AI、Stable Diffusionの高速バージョンと言われています。
オリジナルのバージョンは本当にすごいことができるんだけど、ちょっと時間がかかるんだ。
画像で20秒から60秒くらい。
そして、これはこの設定に依存する。
サンプリングのステップ数。
高品質の画像を作成するには、通常20から50のステップが必要です。
ステップ数が多ければ多いほど、より多くの計算が必要になり、その結果、待たされる時間も長くなる。
そして、ここに驚くべき論文が発表された。
本当にそんなことができるのだろうか?
1-4サンプリングステップ、しばしばシングルステップで。
信じられないような話だ。
つまり、もしこれが本当なら、私たちはテキストから画像への変換を...リアルタイムで行えることになる。
そうです。
そう、リアルタイムだ!
でもちょっと待って。
これは新しいことではない。
1~4サンプリングのステップで画像を作成することは決して問題ではない。
Stable Diffusionを使えばいつでもできるが、残念なことにこうなる。
ぼやけた画像。
ディテールがない。
では、なぜこれが面白いのか?
親愛なる研究者の皆さん、カーリー・ゾルナイ・フェヘール博士のTwo Minute Papersです。
この新しいペーパーを使えば、素早く画像を作成することができ、同時に高品質な画像を得ることができるからです。
では、新しい技術を見てみましょう。
うわぁ、タイピングが速い。
結果はほとんどすぐに更新されます。
もうぼやけた画像はありません!
すごい。
で、どれくらい速いかって?
さあ、学者の皆さん、論文を手放さないでください。なぜなら、それは9-10ミリ秒で画像を作成することができるからです。
そう、1秒間に100匹の猫だ。
解像度は512x512で、画質はまったく悪くない-通常、より遅いバージョンのSDXLに対してのみ負ける。
しかし、SDXLは新しいテキストから画像への技術によって超えられました。はい、それについてもすぐに見てみましょう。
だから、品質にはチェックマークが必要だが、プロンプトに忠実に従うことも超重要だ。
その部分でもチェックマーク。
素晴らしい。
そして、ここにはもっとたくさんのことがあります。
テキストから画像への変換だけでなく、画像から画像への変換も可能です。
一つの画像が入り、それが変換されて出てくる。
これは以前にもStable Diffusionで見たことがありますが、これまでにない創造性を発揮するのに役立ちます。
以前NVIDIAが発表した、風景を描くとほぼ即座にフォトリアリスティックな画像が得られるという論文を覚えていますか?
今では、風景画像だけでなく、アップルのメモ帳でもそれができる。
私はこの素早い反復スピードが大好きだ。
そして実際、人々はすでにこの方法を実際に使っている。
その方法を見てみよう。
リアルタイムの都市計画、プロトタイピング、ビジュアライゼーションの素晴らしい例をご覧ください。
そして、それを使ってアニメーションさえ作成することができます。
すべて無料でオープンソースだ。
では、なぜこんなことが可能なのか?
それは、Adversarial Diffusion Distillation(逆説的拡散蒸留)と呼ばれる技術によって可能なのだ。
幸運なことに、この現象について詳しく説明した論文がある。
では、やり方を説明します。まず、複雑な拡散モデルをトレーニングします。
まず、複雑な拡散モデルを訓練する。これはノイズの多い画像からスタートし、時間をかけて、このノイズをテキストプロンプトを描写する画像に再編成するよう学習する。
しかしこれはゆっくりと行われる。
これを教師モデルと呼ぼう。
ここからがマジックです!
今度は、先生を模倣しようとする小さな生徒モデルを作ります。
教師がどのように振る舞うかを学習し、その振る舞いを再現しようとします。
でも、ちょっと待ってください。すでに教師モデルを持っているのに、なぜそれをコピーするのですか?
まあ、この生徒ニューラルネットワークでそれをコピーするわけだから、質は保たれるが、同時にこの生徒ネットワークはずっと安くて速くなる。
コーギーや猫をより安く、より早く、というわけだ。
フェローの諸君、書類をしっかり持っていてくれ。自動運転車の訓練にも使えるかもしれない。
どうやって?
NVIDIAが発表したこのクールな論文を見てほしい。実際の運転ログを使って過去の状況を分析し、さらに新しい状況を作り出している。
これらのエージェントはすべて、NVIDIAのAIによって制御されている。
そうそう、これをもう2つ先の論文にある画像から画像への翻訳AIに組み込むことを想像してみてください。そうすれば、実際に起こった、あるいは起こるかもしれない困難な状況で、車を安全に訓練できるシミュレーションができあがります。
これは、ビデオゲームのグラフィックから実生活へ、そしてまた戻ることができるこの以前の研究と似たような方法を想像してみてほしい。
しかし、今回は実際の運転状況である。
しかし、この新しい論文では、軌跡をトークン化することができます。つまり、複雑な運転状況を文を単語に分解するように分解することができます。
そして文字にする。
そして、それは非常に、非常にうまくいく
どのように?
見てください。
よりリアルなシナリオを作成することができ、これまでの多くの技術を凌駕している。
知能を持ったAIプレイヤーによるミニ・ビデオゲームのようだ。
なんという時代だろう!
さて、約束通り、11億枚の画像を見て、あなたのテキストプロンプトのために信じられないほど高品質の出力を作成することを学んだ、この新しいテキストから画像へのAIを見てみましょう。
ここで試すことができます。リンクはビデオの説明欄にあります。
さて、その実力は?
では、Stable Diffusion XLと比較してみましょう。
見てください!
10回中6~7回は、SDXLより優先されています。
これは非常識だと思う。
忘れてはならないのは、SDXLは約5ヶ月前に発表された論文であり、すでにそれを上回っているということだ。
ブラボー!
そして、目を見張るような美しい画像をいくつか見ている間に、あと2つ先の論文を想像してみてほしい。私たちはきっと、リアルタイムで作成されたこれらの画像やビデオを見ているはずで、提供する必要があるのはテキストプロンプトだけなのだ。