日刊画像生成AI (2022年9月11日)

2022年9月12日 22:05

画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。

そんな中、毎日時間なくて全然情報追えない..！って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。

昨日までの投稿はこちら
（最近読者さんが増えてきたのか、いいねが安定してきて嬉しいです。お役に立てて嬉しいです。）

開発

Stable Diffusion Windows GUI - 0.8 Release

Windows GUIが0.8にアップデートされたようです。なかなか機能が豊富なようです。僕は特にプロンプトタブが気になっています。著者はMBP M1 Maxなのですぐ使えず悔しい。

Craiyon スマホ版公開

人気のオープンソースDALL・E Miniモデルを作ったCraiyonが、スマホアプリで登場。アプリにすると何かいいことがあるのでしょうか..？Webでも使えるのであまり分かってはいません。

Stable Diffusionの Inpainting機能を簡単に試せる「Inpainter」登場。

Stable Diffusionの改造で生まれた「inpainting」機能。それを気軽に試せるWebアプリが登場しました。UIもシンプルで素晴らしいです。僕の方でも使用してみました。

Stable Diffusion Conceptualizer登場 (colab)

textual inversionでトレーニングされた概念を用いて色々作れるcolab。動画を見る限り、例えば<poolrooms>とか、<hours>とか入れれば学習済みの概念を利用できるようですね。複数利用も可能っぽい。これは楽しそう。
この機能もあらゆるプラグインや、サービスに含まれていきそう。

https://www.reddit.com/r/StableDiffusion/comments/xb76bm/stable_diffusion_conceptualizer_browse_a_library/

colabはこちら。

Stable Diffusion Concept Library続々増える

textual inversionで作られたデータが大量にアップされてきてます。一昨日まで70個くらいじゃなかった..？　今163個あります。上のStable Diffusion Conceptualizerで使って遊びましょう。

"Prompt-to-Prompt Image Editing with Cross Attention Control"非公式実装

個人的に気になっていた「Prompt-to-Prompt Image Editing with Cross Attention Control」の論文を非公式で実装した方が現れました。さすが。
すっごく簡単に説明しますと、現状少しプロンプトを変えただけでも生成画像ってかなり変わっちゃうのが、この技術を使えばそうならないというもの。これは現状Inpaintingというマスクをつけて、そこを置き換えるという技法やimg2imgでなんとかされていますが、それをプロンプトの編集だけでよくしちゃうというもの。いや素晴らしい。プロンプトエンジニアリングは操作方法とかは全て技術としては価値がなくなり、割と操作する側が概念をどれだけ知ってるかっていうことに集約しそう。

表現

メガネだけ固定したWarp Diffusion

かなり面白い作品登場。img2imgでメガネ部分だけ与えて、固定してるのでしょうか..？それか全体的になんとなくこういうラフのimg2imgを与えて制作しているのか分かりませんが、このような動画が作れることが分かりましたね。

Memento mori #stablediffusion pic.twitter.com/l191ZwjxPs
— WeavingWithAI (Jerome) (@GanWeaving) September 11, 2022

北斎アートの続き

DALLE2のOutpaintingで作られた北斎アートの続きが伸びていたのでメモ。
出た当初は盛り上がりましたが、DALLE2は正方形でしかOutpaintingできないので、Stable Diffusionの改造版にクオリティは劣る印象があります。

https://www.reddit.com/r/dalle2/comments/xaoy90/the_great_wave_off_kanagawa_continuation

無限に続くOutpainting

Outpaintingを使えば、いくら離れても無限に続く絵がこれまで以上の解像度で、簡単に作れちゃいますね。これはDALL・E2の事例なので制作が大変そうですが、Stable Diffusionならとても簡単に作れそうです。

https://www.reddit.com/r/dalle2/comments/xbgynq/i_doubled_the_pixels_59_times_and_pressed_it_into/

研究

Waifu Diffusion 検証続々

一昨日〜昨日はかなりWaifu Diffusionの検証の投稿を見かけることが多く、生成物を確認していましたが..クオリティがかなり高かったのでメモ。いや..クオリティやばい。

#stablediffusion #WaifuDiffusion
呪文とシード値はaltに記載。

同じ呪文でたくさん生成させるまでの試行錯誤過程で、イイ感じの画像が出てくることもあったりで。
そういうのは結果的に呪文残ってなかったりして失われるんですが、今日のはここで供養。 pic.twitter.com/S11axCpPZM
— Muacca (@Muacca) September 11, 2022

お花&kawaii#AIart #stablediffusion #StableDiffusionKawaii #WaifuDiffusion pic.twitter.com/6yjnhBiZ1T
— chili (@kawaiiprompter) September 10, 2022

#stablediffusion #WaifuDiffusion
off_shoulderの破壊力が凄い。センシティブにならないラインで魅力的なのが出しやすい。 pic.twitter.com/AQtmVHcTcZ
— harulu🜸Unicorn (@harulu_t2) September 11, 2022

#stablediffusion #WaifuDiffusion
loli girl with pink long wavy hairstyle: No.W01
呪文とシード値はaltに記載。

上級術師の方がありがたくも公開してくださっていた爆乳美少女の錬成術式を早速お試ししていますがヒット率高くて震えているところです。
ときどきツンデレ気味な表情も！すばらっ！ pic.twitter.com/rzL2A7K1rf
— Muacca (@Muacca) September 10, 2022

あと、何やら限定の呪文があるそう..気になる。どうやら、waifudiffusionはDanbooruの画像とタグを学習しているので、そこでのタグが有効なようです。

#stablediffusion #WaifuDiffusion
WaifuDiffusionの小技１
学習元がDanbooruのため、Danbooru上で設定されたタグが有効に効く。
ただしデータは2021年時点のものであること、品質上位と判定された約5万件の画像から学習しているため、マイナーなタグは効きにくいことに注意。上位のタグはこんな感じ pic.twitter.com/YtxIPwEOnH
— harulu🜸Unicorn (@harulu_t2) September 11, 2022

waifu diffusion限定の強力呪文"flandre scarlet"の効果
・顔がかわいく整う
・顔立ちと表情に幼さを与える
・服装にロリータの属性を与え、フリルを増やす

呪文の副作用
・出力された結果を慎重に選ばないと、わかる人から見たら「flandre scarletのパチモンすぎる」印象になる#stablediffusion
— 白月めぐり (@alice_diffusion) September 8, 2022

Trinart検証続々

Triartの検証も続々増えてきています。こちらもとにかくえぐすぎる。WaifuもTrinartもどちらもかなりエグいクオリティを叩き出してきています。

アニメ・マンガ・イラスト特化のAIモデル、TrinArtを試しています。(無編集)TrinArtは現在有料会員向けのサービスです。#ainovel #trinart pic.twitter.com/T5BemcgQsz
— 852話 (@8co28) September 10, 2022

画像生成AIが大量に溢れかえっていて、次は画像生成AI「TrinArt」を試した。二次元に強いモデルが続々と出てきている pic.twitter.com/VlHzDT8L5D
— 小猫遊りょう（たかにゃし・りょう） (@jaguring1) September 10, 2022

メカクレめっちゃ安定した…… #とりんさまアート #trinart pic.twitter.com/z7dWTERNoO
— まいらいか🔥 (@MaiRaiKa_) September 9, 2022

#stablediffusion
昨晩の。trinart2モデル使用。タグの付け方がわからない。#trinart
でいいんかな pic.twitter.com/i1Pk53ZexA
— エボシ＠デネブラボ (@FakeKamaboco) September 11, 2022

50枚くらい作ってみて比較的たまに近かったイラスト4選#電音部AI部 #trinart pic.twitter.com/SOeqZJHwNo
— ちゅら.証明写真 (@Chura_th) September 11, 2022

これ本当にすごい
元画像なしの簡単なプロンプトで永遠に生成できる
この4枚は連続して生成したもの#trinart pic.twitter.com/Op3Fwp4RxN
— kosei28 (@kosei_28) September 11, 2022

from_aboveが楽しい……構図指示通るの凄いわキャラクターズモデル……四枚目プロンプト有り #とりんさまアート #trinart pic.twitter.com/LSrvCCTpX9
— まいらいか🔥 (@MaiRaiKa_) September 11, 2022

#stablediffusion
昨晩の。trinart2モデル使用。タグの付け方がわからない。#trinart
でいいんかな pic.twitter.com/i1Pk53ZexA
— エボシ＠デネブラボ (@FakeKamaboco) September 11, 2022

~~Trinartのcolabはこちら。~~
こちらはとりんさまアートv2モデルというものをおそらく使用されています。

マンガ絵に特化したStableDiffusionの亜種、Trinart Stable Diffusionを動かすGoogle Colabノートブックを公開しました！ #StableDiffusion #StableDiffusionKawaii #trinart https://t.co/V9wod365m9 pic.twitter.com/Hz6jb7dwbm
— リーサ・リサージュ・ヤスミン (@LisaDQX) September 10, 2022

あと二人とかでも精度高いみたい。すごいな..

双子#trinart #AIArtwork #AIアート pic.twitter.com/6xizCLagBf
— はくあ (@hakua_asobi) September 11, 2022

Stable Diffusion Outpainting作品

DALL・E2と比較するために同じ状態のものを生成されている。ほぼ劣らぬクオリティ。操作性や、密度のことを考えると圧倒的にStable Diffusionの勝利という感じですね。

https://www.reddit.com/r/StableDiffusion/comments/xb4jr5/outpainted_in_stable_diffusion/

現時点でのそれぞれの画像生成AIの違いを分かりやすく紹介

tomo-makesさんがとても分かりやすくまとめてくださっているのでメモ。分かりやすい！これは嬉しいですね。

様々な画像生成AIの試し方 (LINE bot、WebアプリからColab、自前環境構築まで) について、「それぞれの違い」「無償/ 有償枠」「制約」「利用モデルの違い」等、見取り図にまとめました。

何から試そう、次はこれを試そうといったガイドとなれば。(1/2)#stablediffusion #midjourney #技術書典 pic.twitter.com/dRWSlfxFC7
— tomo-makes (@tomo_makes) September 11, 2022

思想・ムーブメント

将棋の世界の話

こういうことが今後色々な業界で本当に数年で発生していきそう。そのためにどう動くのか考えなければいけないと思います。

将棋の世界はAIと対戦したりさらには研究に使ったりと、どの業界にも先んじてAIと真摯に向き合ってきた業界だと思っているのですが、『覇王の譜』主人公の若き頃のこのシーンはそういったことを抜きにしても感情の吐露として心にぶっ刺さる... pic.twitter.com/yWt2hwm2sR
— コノギヨシヲ | yoshiwo.eth | 4 Gwei (@yoshiwo_konogi) September 11, 2022

AIはソフトウェア産業を飲み込む。

Runwayのようにテキスト入力しただけで動画編集できるようなサービスが今後あらゆる領域でどんどん出てくるはずです。それはもうすぐ音声インターフェースに含まれて、過去に言われていた「VUI（ボイスユーザーインターフェース）」の時代が訪れそうです。

Google Ventureでは、10年前、AIを活用した企業を検索しても、空振りでした。それが変わったのです。AIはソフトウェア企業を食い物にしようとしています。なぜなら、AIは全く新しいUXを生み出し、既存企業はその製品を壊さずに採用することができないからです。10年のハイパーサイクルが始まったばかりです。

At Google Venture a decade ago we searched for AI enabled companies and came up dry. That has changed. AI is going to eat software companies. Primarily because it creates entire new UX that incumbents can’t adopt without breaking their product. 10 year hypercycle just started.
— Blake Byers (@byersblake) September 11, 2022

最後に

もうないかなぁ..と思ってたらどかどか更新され続けるこの業界、刺激が多すぎて楽しいです。一体どこまで更新されるのか本当にワクワクが止まりませんね。

Twitterに、毎日製作したものや、最新情報、検証を載せています。よかったらフォローしていただけますと幸いです。

https://twitter.com/Yamkaz

昨日の号はこちら

次の号はこちら

サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます

日刊 画像生成AI (2022年9月11日)

開発