Leonardo AIの新機能で、日本語のフレーズから高精細画像を創る [Alchemy Upscale etc.]

uzulan

2024年1月13日 18:08

はじめに

前回のブログで、LeinardoAIの画像生成の多様な方法と、そのためのいくつかのツールについて述べました。

今回は、画像生成の初心者（私のことです）が、精細な画像を比較的簡単に創る方法、をご紹介したいと思います。

例によって、備忘録的なメモですが、特に、Alchemy Upscale(r)については、新しい機能のご紹介となります。

作成手順として、前回簡単にご紹介した、Leonardo AIのツールをいくつか使います。
プロンプトって何？、というレベルでも、これらのツールを用いることで、生成する画像に、構図や全体のトーンをある程度指定することが、割合簡単にできます。

画像生成手順の概要

大まかな手順は次のようになります。

以下では、風景の画像生成の例を用いますが、基本的には、人物、動物、道具、などでも同じです。

また、特に構図等の指定については、Image to Image (image2image Image2Imageなどとも記載されます）を使います。簡単に、色々いじれてなかなか面白い機能です。

まず、自ら設定した単語やフレーズを、ツールを使って、より複雑で、背景等を詳細に記述した文章にします。（Pronpt Generation + Improve Prompt)
次に、風景写真などを用いて、画像の構図の基本形状や全体のトーンを設定し、先ほどのプロンプトを適用します。（Image Guidance / Image to Image)

注：ここで使う、Image to Imageは、Controle Netと呼ばれる技術の適用例の一つです。他に、人のポーズを指定できるPose to Imageなどいくつかのバリエーションがあります。

3.最後に、創った画像を高精細（up scale)にして、かつ、画像の不具合を修正または改善することのできるツール（Alchemy Upscale ）を適用します。

ここで、画像の不具合とは、たとえば、指が６本以上とか、手足が変、顔がちょっと崩れている、などという状態などで、現状の画像生成AIでは、割合高頻度で発生してしまいます。

注：どうやら、このAlchemy Upscaleは、ごく最近、Refinerから名称変更され、内容もバージョンアップされたようです。(2024/1/11)

具体的な画像生成の手順

１．プロンプトの作成（Prompt Generation + Improve Prompt）

事前準備

この部分は、既にPromptGeneration でご紹介しました。

おさらいします。

まず、最初に、基本の単語 / フレーズや簡単な文章を設定します。
今回は、下記のように日本語で設定しました。

「幻想的な風景、そこには、龍の一族と人間たちがともに生きていた」
これを、NotionAIやDeepL、Google翻訳などで、英語に翻訳します。

P-1: “ Fantastical Landscape, where the clan of dragons and humans lived together. “　by NotionAI

Prompt Generationの実行

この英語のフレーズを、下図のように、Prompt Generationの赤枠にインプット（ペースト）します。

右側の、下図の黄色で囲んだ　ideate をクリックします

今回は、4つと指定したので、4つのプロンプトが作成されました。

以前、同様にして創ったフレーズの一つを下に引用します。

P-2; “A sprawling landscape filled with vibrant colors and fantastical creatures, where the dragon clan and humans coexist in a world of magic and wonder.”
広がる風景は、鮮やかな色と幻想的なクリーチャーで満ちています。ここは、ドラゴン族と人間が魔法と驚きに満ちた世界で共存している場所です。

Improve Promptの適用

前回は、この文章の右にある、Generateをクリックして画像生成を行いました。または、Editで修正してから生成でした。

今回は、さらに文章を練り上げるために、一旦、気に入った文章をコピーします。

それを上図のように、上の赤い枠のところに、ペーストします。
次に、オレンジ色で囲んだボタンをクリックすると、ブルダウンメニューがでるので、黄色の楕円で囲んだ “ Improve Prompt “ をクリックします。すると、入力した文章の改良版が生成されます。大体3-4倍の長さとなるようです。

P-3;
A breathtakingly vast world of breathtaking beauty and supernatural beings, where majestic dragons and humans peacefully coexist in a realm of enchantment and marvel. This awe-inspiring image, most likely a mesmerizing painting, depicts a glorious landscape teeming with vibrant shades, illuminated by the intertwining magics of nature and the fantastical. The intricate details capture the harmonious relationship between the dragon clan and humanity, showcasing their mutual respect and the captivating wonders they share. With meticulous brushstrokes and richly saturated hues, the image exudes an unparalleled sense of magnificence and allure, leaving viewers spellbound by its sheer brilliance.

「息をのむほど広大な美しさと超自然的な存在が広がる世界。壮大なドラゴンと人間が共存し、魅惑と驚きに満ちた領域で平和に暮らしています。この感動的な絵は、おそらく魅了されるような絵画であり、鮮やかな色彩で溢れた壮大な風景を描いています。自然と幻想的な魔法の絡み合いによって照らされた風景は、複雑なディテールでドラゴン族と人間の調和した関係を捉えており、彼らが共有する魅惑的な驚異を見せてくれます。緻密な筆遣いと豊かな色彩が、この絵には素晴らしさと魅力を漂わせ、その卓越した輝きによって鑑賞者を魅了し続けます。」

これをプロトタイプとして、出来上がった画像を見て、さらに文章の校正をすることも可能です。

なお、この同じPromptで、同じモデルでも、何種類か生成させると、結構、異なる画像が生成されてきます。

また、そもそも先ほどでの例では、雛形となる拡張Promptが４つありました。それぞれに、このImprove Promptを行うということもあるかと思います。一度に創る枚数を考えないと、トークンが結構消費されます。

ちなみに、この文章には、最近話題の光の方向性などの指示がありません。文章でいれると、実現するかは、まだ試してません。

そもそも、LeonardoAIには、その機能が、独立しては、まだ実装されていませんが、今後、光源の色と方向性、シャープネスなどが、別途付加されるかもしれません。

さて、画像生成用のPromptの準備ができました。
次は、Image Guidanceの準備です。

２．Image Guidance（Image to Image）の設定

この機能（Image Guidance)は、今回始めてご紹介します。

Image Guidanceは、色々なことができるのですが、今回は、その中のImage to Image のイントロダクションです。

Image to Image は、入力するPromptで生成される画像と、写真等の画像データとをある比率で合成した画像生成をする、といった機能のようです。

例えば、風景写真の画像データを用いると、その基本的な構図や、色合いなどが、Promptで生成される画像に反映されます。

その影響の強度を変化させることで、画像はかなり変わってきます。

準備

画像データとして、今回は、下のような風景写真を用意しました。

夕暮れの街の風景です。手前が水面、ここは海で船があります。中央部分にはビルがあり、両脇が高くなっています。夕方なので、夕日の影響が空に反映されています。

Image Guidanceの設定

Image Generationの画面には、タブが３つあります。(1/12/2024)これは、今後増えるかもしれません。例えば、光源効果とか、、、
半年前の古い動画では、２つのタブだったりしますので。

ここでは、画像データ１と２とを表示しています。

この画面では、１には、既に画像データが入っています。２には、まだ入っていません。ここの、↑のところに、写真データなどをドラッグしてもってくると画像が入力されます。

１の方の、スイッチが今オフとなっています。これをオンにするとImageGuidanceの始まりです。

下図の黄色の楕円をONにします。そうすると、image Guidanceが緑のONとなります。
ちなみに、今回は、1の下の３番目の先ほどご紹介した画像データを使います。

今回は、Image to Imageなので、変更する必要はありませんが、一応ご紹介すると、この赤枠の一番上の，▼マークでプルダウンメニューがでます。

このケースでは、４つのメニューから選ぶことができます。

このメニューは、2023年後半からこのようになったようです。
このケース、と記載したのは、、、Feature Releasesには、このメニューについて異なる説明があるからです。こちらの説明にある様々な機能は、右側の欄のAlchemy を切ると、モデルにより出て来る場合があります。

モデルが、SD1.5と2.1ベースの場合です。ただし、メニューの内容は、それぞれで異なります。

今回の範囲では、設定はこれで終わりです。

後は、下図のStregthの設定があります。赤枠で囲んだ部分です。

この値によって、今回の写真とテキストから生成される画像との影響の比率が代わります。現在の0.30の値は、テキスト生成画像の影響が大きいことになります。この値が大きくなると、写真の画像に近づいていきます。

3．生成された画像の例

画像生成手順（Image to Image) のまとめ

これまでの手順を、下図に基づいてまとめます。

一番上の赤枠に、Prompt を入力（ペースト）します。
Image Guidanceで写真の横のオレンジで囲んだスイッチを右にスライドさせます。そうすると、Image Guidanceが緑のONとなります。
この状態で、黄色で囲んだ、Generate をクリックすると、画像が生成されます。
その結果は、Generation History タブをクリックするとみることができます。

P-1: のPromptの結果

“ Fantastical Landscape, where the clan of dragons and humans lived together. “

P-2: のPromptの結果

“A sprawling landscape filled with vibrant colors and fantastical creatures, where the dragon clan and humans coexist in a world of magic and wonder.”

P-3: のPromptの結果

A breathtakingly vast world of breathtaking beauty and supernatural beings, where majestic dragons and humans peacefully coexist in a realm of enchantment and marvel. This awe-inspiring image, most likely a mesmerizing painting, depicts a glorious landscape teeming with vibrant shades, illuminated by the intertwining magics of nature and the fantastical. The intricate details capture the harmonious relationship between the dragon clan and humanity, showcasing their mutual respect and the captivating wonders they share. With meticulous brushstrokes and richly saturated hues, the image exudes an unparalleled sense of magnificence and allure, leaving viewers spellbound by its sheer brilliance.

これらを見る限りでは、それぞれの生成画像の良し悪しは、好みの範疇と言えるかもしれません。ただ、P-1に比べれば、P-2とP-3は、表現が向上しています。

また、P-1＜P-2<P-3で、生成画像の表現がより精細になっているような印象を受けます。

4．画像修正と高精細化（Alchemy Upscale)

概要

これは新しい機能です。最近とても流行りつつある、up scale 機能です。Leomnardo AIでは、まさしく今現在バージョンアップ中のようで、メニューが日々少しずつ変わっています。

また、例によって呼び名も変わってるようです。以前は、Refinerという名称でしたが、それが、現在は、Alchemy Refinerという名称と、Alchemy Upscaler、Alchemy Upscaleという３つの名称が画面に混在しています。

機能としては、これを適用すると高精細化とともに画像修正を行います。その加減は、３段階に設定できます。

適用結果の画像

まず、これらの画像を、ご覧ください。先ほどのそれぞれの画像に、Alchemy Upscalerを適用した結果です。
適用レベルは、Medium + Smooth Mode ONです。

P-1のUpScale結果（Alchemy Refiner / Alchemy Upscaler)

P-2のUpScale結果（Alchemy Refiner / Alchemy Upscaler)

P-3のUpScale結果（Alchemy Refiner / Alchemy Upscaler)

P-1,2,3それぞれの画質が、明らかに向上しています。
また、画像が、かなり修正されています。

たとえば、P-2で、空を飛んでいる竜？が、ちょっと変な形状ですが、Alchemy Upscaler適用後は、それらしく修正されています。また、頭数も増えています。人間達も同様です。

P-3も、女性の姿がクリアになり、服の色も変わりました。また、船がはっきりと登場しました。竜の爪が刺々しくなっています。
右側の崖の雷のような青い火花もはっきりしてきています。このようなイラスト系の画像では、かなり効果的な印象を受けます。

Alchemy Upscalerの設定と適用方法

各画像の下の方にカーソルを持っていくと、下図のようなメニューが表示されます。

上の図で黄色で囲んだボタンをクリックすると、下図がポップアップします。

それぞれの日本語訳を下に示します。

上で、黄色で囲んだ機能を選択して、赤で囲んだUpscaleをクリックすると、Alchemy Upscaleが適用され、先ほどご紹介したような修正画像が表示されます。

以上で、今回の説明の概要説明を終わります。

このブログを書いている途中でも、このAlchemy Upscale関連は、関連のメニューが増えていて、改訂が進んでいるようです。(2024/1/14)

この進化しているメニューの各々については、別途ご紹介したいと思います。