高品質な画像を生成するためのオープンソースのAIモデルである新しいStable Diffusion XL 0.9が紹介されています。ベータ版と比較して画像の品質が向上したことをデモンストレーションし、風景、手、さまざまな芸術的スタイルなどの例を紹介しています。Stable Diffusion XLモデルは、大規模なパラメーター数と2つのclipモデルを使用しており、より詳細で解像度の高いリアルな画像を生成します。動画では、システム要件、研究目的での利用可能性、バージョン1.0の近日リリースについても言及されています。また、Stable Diffusion XLを別のAIモデルであるMidjourneyと比較し、Stable Diffusion XLの無料で無制限の利用を強調しています。
公開日:2023年7月1日
※動画を再生してから読むのがオススメです。
もしあなたが、Midjourneyと同じようなクオリティで、絶対的に無料で、ほぼ無制限に、絶対的に素晴らしいAI生成画像を作成したいのであれば、このビデオはあなたのためのものです。
このビデオでは、Midjourneyと同じようなクオリティのAI生成画像を、無料でほぼ無制限に作成することができます。
この新しいStable Diffusionは、本当に素晴らしいものです。このビデオでは、Stable Diffusionについて説明し、その使い方を紹介します。
さあ、行こう!
これが今日のブログ記事です: Stability AIがsdxl Stable Diffusion XL 0.9を発表しました。
Stable Diffusion XLのベータ版は4月にリリースされ、それからわずか数ヶ月でStable Diffusion XL 0.9は、前作よりも画像と構図のディテールが大幅に改善されました。
これらのオープンソースモデルの改善速度は、テキスト用の大規模な言語モデルやAIジェネレーティブ・アートモデルについて話しているのであれ、これらは毎日、一見、絶対に大きな進歩を遂げている。
そして何より素晴らしいのは、オープンソースであり、完全に無料であり、すぐにローカルのコンピューターで実行できるようになることだ。
最新のコンシューマー向けGPUで実行できるにもかかわらず、sdxl 0.9はジェネレーティブAIイメージのクリエイティブなユースケースに飛躍的な進歩をもたらす。
まず、前回のベータ版から今回の新バージョンまでの例を見てみよう。
左側ではベータ版を見ていますが、右側では新しいバージョンを見ています。
これらはまったく同じプロンプトで、お分かりのように、左はかなり良い出来で、右はとても詳細で、色彩が豊かです。
背景にはボケがあり、本当に良く見えます。
この2番目の画像を見てみましょう。
左側はベータ版で、右側は最新のリリースです。
チリ、ヨセミテ国立公園のオオカミ。
ネイチャードキュメンタリー映画撮影。
オオカミは遠くにいて、ディテールはよくないが、これはかなりよく見える。
丸太は超リアルには見えない。
しかし、右側を見てみると、これは素晴らしい。
ゴージャスだ。
小さな毛がすべて見えるし、ディテールも驚異的で、目も完璧に見える。
これは本当に素晴らしい画像です。
もう一つこちらです。
テイクアウトコーヒーを掲げる美的なマニキュアの手。
パステルチリの夜明けのビーチ。
インスタグラムのフィルム写真。
さて、正直なところ、この左の1枚はとてもいい感じだと思う。
唯一の批判は、ここにはたくさんの指があることがわかるということです。人間よりもはるかに多くの指があります。
AIのジェネレーティブ・アートは、常に手と格闘してきた。
Midjourneyの新しいバージョンはそれを解決してくれたが、Stable Diffusion XL 0.9もそれを解決してくれたようだ。
このハンドは完璧に見える。
そして、sdxlシリーズは、基本的なテキストプロンプトにとどまらない膨大な機能性を提供している。
イメージ・トゥ・イメージ・プロンプティング、基本的にイメージの一部を取り出してジェネレーティブ・アートで置き換えるイン・ペインティング、既存のイメージのシームレスな拡張を構築するアウト・ペインティングなど、基本的にイメージの一部を取り出して、その周囲にあるものを拡張したAIアートを作成することができる。
では、彼らはどうやってそれを実現したのか?
sdxl 0.9のコンポジションが進化した主な要因は、ベータ版よりもパラメータ数が大幅に増えたことです。
sdxl 0.9はオープンソースの画像モデルの中でも最大級のパラメータ数を誇り、35億パラメータのベースモデルと66億パラメータのEnsemble Pipelineを備えています。
また、ベータ版は31億パラメータで、単一のモデルしか使用していません。
Sdxlは2つのモデル(クリップモデルと呼ばれる)を使用しており、そのうちの1つは現在までにトレーニングされた最大級のオープンクリップモデルで、処理能力が強化され、よりリアルな画像、より深い深度、最大1024×1024の解像度を得ることができる。
彼らはすぐに彼らの進歩についてのブログ投稿を公開する予定です。
もう一つの画像ですが、背景には絶対に素晴らしい銀河があり、このボトルの中には小さな銀河があり、本当に美しい画像です。
さて、これがシステム要件だ。
sdxl 0.9は、その強力な出力と高度なモデル・アーキテクチャにもかかわらず、最新のコンシューマー向けGPUで動作可能です。
Windows 10か11、またはLinuxオペレーティングシステム、16ギガバイトのRAMが必要です。
今、それはvramではなく、普通のRAMです。ほとんどの現代のコンピュータには16ギガバイトのRAMが搭載されています。
NVIDIA GeForce RTX 20グラフィックカードが必要ですが、これはミドルレンジのグラフィックカードで、8ギガバイトのVRAMが必要です。
多くのビデオカードで実現可能であり、最新のビデオゲームに最低限必要なものです。
Stable Diffusion XLはクリップドロップで使用することができ、今日テストするドリームスタジオのAPIも3日前からアクセスできるようになりました。
Sdxl 0.9は、一般公開前にフィードバックを収集し、モデルを完全に改良するために、限られた期間、研究目的でのみ提供されます。
コードは公開されており、今日からすでに使うことができる。
安定性AIのGitHubページにコードが公開されているので、ダウンロードして今すぐ試すことができる。
私はそれをするつもりはありませんが、あなたのローカルコンピューターでそれを立ち上げて実行する方法を紹介する別のビデオを作るかもしれません。
次の予定は?
Stability XL 0.9に続き、sdxl 1.0のフルオープンリリースは7月中旬を予定している。
とても、とても近いうちに。
さて、これがクリップドロップのウェブサイトにあるStable Diffusion XLモデルだ。
これらのサンプルを見てみよう。
つまり、これらは本当に美しいです。
アニメのようなスタイル、骨格のあるリアルさ、ハイパーリアリズム、ティルトシフト効果、信じられないほどです。
これらの画像はMidjourneyに匹敵する。
まず、価格を見てみましょう。
前述したように、これは完全に無料だ。
Midjourneyは、無料ではテストすらできず、1日あたり400枚の画像を入手できます。
つまり、基本的に無制限なのだ。
あなたのことは知らないが、私は1日に400枚の画像を作成したことはない。
さらに無料版には、背景除去、クリーンアップ画像、リライト、画像アップスケーラーなど、たくさんのAI機能がついています。
では、直接比較してみましょう。
私はMid Journeyのウェブサイトにいます。
プロンプトをいくつか見てみよう。
それから、それをテストして、直接Clipdropの画像と比較します。
まず最初に、これを試してみます - pill head surrealism surrealism abstract Harry Clark.
これは本当に、本当にクールに見える。
この2つの画像は全く別のモデルで学習されたものなので、よく似ているとは思いません。
気になるのは、クオリティは同等なのか、ということだ。
見てみましょう。
さあ、やりました。
先ほど言ったように、この画像はMidjourneyで見つけたものとは本当に似ていない。
これらも非常に芸術的です。
Midjourneyに掲載されていたものよりも芸術的だ。
今、この2つをスクリーンに映し出しますので、直接比較して見てください。
次に、この指紋がとても気に入ったので、sdxlを使って再現してみよう - ペーパーボード上の大きな指紋スタンプ。
これは超広範囲で一般的なプロンプトなので、非常に異なるものが得られると思う。
でも見てみよう。
さあ、それです。
それで、白黒ですが、これらもとても良いように思います。
では、もしプロンプトに青と赤を使って、Midjourneyで見つけたものに近いものを取得しようとしたら、どうなるか見てみましょう。
よし、いくぞ。
どれも素晴らしい。
これはMidjourneyのバージョンに近いと思う。
Midjourneyと比較できるように、この2つをスクリーンに映し出します。
最後に、このライオンの画像が大好きで、sdxlさんがこの画像に素晴らしい仕事をすると思います。
では、テストしてみましょう。
さて、これを見てください。
これはまあまあだと言えます。
これは僕が求めていたものとはちょっと違う。
より芸術的です。
僕はもっとリアルなものを求めていたんだけど、それは実現できなかったようだ。
でも、それでいいんだ。
さて、これらは絶対に素晴らしいです。
これはまさに私が望んでいたものです - 超詳細で超リアルです。
クリックしてみましょう。
見てください、肌のテクスチャが全部見えて、髪の毛も、眉毛も、頭の髭も全部見えます。
これはとても素晴らしい。
では、他の機能もお見せしましょう。
この右上の3つの点をクリックすると、背景の除去、不完全な部分のクリーンアップ、リライト、強調、アップスケール、イメージ、切り抜き解除があります。
私はリライトを試してみたいのですが、リライトでできることはその名の通り、この顔のあらゆる方向にライトを配置することです。
つまり、この顔のあらゆる方向にライトを配置することができるのです。
赤いライトをクリックすると、簡単に赤いライトを増やすことができ、リアルタイムで彼の顔の照明が変わり、影が変わるのがわかります。
とてもクールだ!
強度を変えることができますし、半径も変えることができます。
そして、距離も変えることができますので、これを見てください。
距離を変えると、彼の顔の上を光が通り、リアルタイムで影が変化するのがわかります。
ですので、赤い光を完全に消し、その後青い光を上げると、光と緑色の光が変わるのが分かります。
さらにライトを追加することもできます。
頭の周りを動かしてみると、リアルタイムで顔全体が更新されます。
そして、ライトを消して、その画像をダウンロードすることができます。
とてもクールだ!
この画像には圧倒されました。
このモデルの進歩は相当なもので、1.0バージョンがもうすぐ登場すると知っているだけで、とてもわくわくする。
これは無料で、オープンソースだ。
もうすぐ制限がなくなるでしょう。自分自身のコンピュータで実行することができますから。
しかし、今のところ、1日あたり400枚の画像を処理しなければならない。
Midjourneyは本当に大変な仕事を抱えています。
オープンソースのAIが普及し続け、急速に改良されていくのを見るのはとても楽しみだ。
コメントで感想を聞かせてください。
このビデオが気に入ったら、いいねやチャンネル登録を考えていただけると嬉しいです。次回をお楽しみに。