見出し画像

日刊 画像生成AI (2022年11月8日)

ジェネレーティブAI界は、今とても早いスピードで進化し続けています。

"New World"

そんな中、毎日時間なくて全然情報追えない..!って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。


過去の投稿はこちら


開発


InfiniteNature-Zero

GoogleAIの新しい研究が公開。静止写真からの 3D フライスルーの生成を可能にする。以前は動画データだけでトレーニングしたけど、今回は静止画像だけのようです。1枚の画像さえあればその世界を歩き回れるの楽しそうだな..


Runwayが「Text to Color Grade」を搭載

AIツールをひたすら搭載し続けている、AIマジカルツール「Runway」に「Text to Color Grade」が搭載。テキストを入力すれば動画のカラーを調整することができる。通常AfterEffectsなどでちょこちょこパラメーターをいじったりする作業がテキスト入力だけでできてしまうのは本当に楽で素晴らしい。


Lexicaがモデルを開発中

Lexicaがモデルを作っており、数日後に公開されるとのこと。
写真レベルのハイクオリティなモデルでMidjourneyの--testpあたりのポートレート出力感。LexicaのGenerate機能に導入されるってことでしょうか。楽しみです


DPM-Solver++にDiffuserが対応

10~20ステップで通常のサンプラーの100~200ステップあたりの表現ができるDPM Solver++がDiffuserに対応したそうです。


Text to Figma


Nerf Studioで焦点アニメーションが利用可能に


StableDiffusion オートエンコーダーのlatent diffusion upscaler

Stability AIに所属(おそらく)、かつ元オープンソース界隈で色々開発されていた有名な方、Rivers Have WingsさんがStability AIと共同でSDのオートエンコーダーのlatent diffusion upscalerを制作されたようです。


Comic Diffusion がV2に進化。複数のトークンに対応

6つのスタイルを同時に学習させ、トークンを自由に組み合わせることで、誰でもユニークで一貫性のあるスタイルを作ることができます。同じリストの順番を変えるだけでも結果が変わるので、いろいろと試してみてください。これは、誰でも簡単に、柔軟にマンガの企画ができるようにと作られたものです。私がこれまでdreamboothで試してきたことの集大成です。

V2のトークンは、
charliebo artstyle、holliemengert artstyle、marioalberti artstyle、pepelarraz artstyle、andreasrocha artstyle、jamesdaly artstyle

Redditで複数トークンの場合の学習方法について後半で言及してる


Midjourney V4 Diffusionが公開

Midjourney v4の出力画像でSD 1.5をトレーニングしたモデルが公開されました。プロンプトとして「mdjrny-v4 style」を使うとこのスタイルを適用できる。もうMidjourney課金してないよ!って人はこれ使ってもいいかもしれない

割と再現できていてすごい。左がSD1.5、右がファインチューニングモデル

完全にmidjourneyのそれだ


Papercutモデルが公開

Papercut画像でトレーニングされたSDモデルが公開。プロンプトに「PaperCut」で利用できます。


プロンプトテスト用のスクリプトが公開

画像生成する際、どのプロンプトがちゃんと効いているか判断したいけどいちいち生成していると時間がかかるし..って時があると思います。
このATOMATIC1111用スクリプトを使うと、1単語ごとに抜いてまとめて検証してくれるようです。

例えばこれは「banana, on fire, snow」で入力して、このスクリプトを使った例。


Thisdogexists

AI画像かテストするページ。AIで生成された犬が3匹、本物が一匹混じってる。しかも本物の犬の飼い主になることができる。 サイトを運営している団体「Wags and Walks」は助けを必要としてるワンちゃんを救い出して、里親を募集している非営利団体。

https://thisdogexists.com/

絶対いける!って思ったら1問失敗しちゃった..。背景のディテールだけ見たら大体分かるけど、Midjourney v4のだと分からなそう。


Adobe Podcast

画像生成AIじゃないですが、この日素晴らしいAIを使ったサービスが公開されたので紹介。AdobeがAIを使ったPodcastの編集、録画ツールを公開。これ見たけどかなりやばいです。簡単に説明すると、一緒にリモートで話してテキストを起こして文字起こしされた部分を削除して、消したいところを簡単に削除したり、間に音声を楽に入れたり、ノイズ除去もかなり高いクオリティでできています。以下リンクの後半の使用しているビデオを見ていただくと理解できるのでぜひ。


表現


Izumi Satoshiさんの実写→手書き風アニメ変換テスト


まるで4K映画のようが生成画像


ハイクオリティな3Dレンダリングの生成画像

製作者は独自のこういう出力が出るDreamBoothモデルを制作しており、それを利用されています。プロンプトに以下を利用すれば近いスタイルは得られるとのこと。

prompt:
megacity lush garden, complex 3d render ultra detailed, 150 mm, beautiful studio soft light, rim light, vibrant details, luxurious cyberpunk, biomechanical, cable electric wires, microchip, elegant, beautiful background, octane render, H.R. Giger style, 8k
negative:
poor quality resolution, incoherent, poorly drawn, poorly drawn lines, low quality, messy drawing, poorly-drawn, poorly-drawn lines, bad resolution


Midjourney V4 ペーパーマリオ

https://www.reddit.com/r/midjourney/comments/ypea9p/paper_art_with_paper_mario_and_the_mushroom/
https://www.reddit.com/r/midjourney/comments/ypkzyv/paper_mario_part_2/


Midjourney V4 日本人写真

やばすぎる

https://www.reddit.com/r/midjourney/comments/ypi5tk/v4_is_so_awesome_really/


Midjourney V4 iOSアイコン

https://www.reddit.com/r/midjourney/comments/yp239c/ios_icons_blown_away_by_the_results/


検証


Midjourney 2つのUL入力のRemixモードの実験

https://www.reddit.com/r/midjourney/comments/yovzt7/remix_mode_fantastic_memolition/


Midjourney v4のイメージプロンプト検証

すごい、横からとった画像からアイソメトリック画像を生成してて、もうDreamBoothとかそういうレベル。画像入力したら高速なTextual inversion的な仕組みが裏で走ってる..?どうしてるんだろう。識者の方にお聞きしたい..


思想・ムーブメント


AIArtについて書いているメディアへの公開書簡


AIとゲームの未来


Shutterstock の幹部が DALL-E 2 の採用を決定した理由

https://www.emergingtechbrew.com/stories/2022/11/04/why-shutterstock-execs-decided-to-embrace-dall-e-2


Hugging Face と ServiceNow がコード生成 LLM の課題に取り組む方法


勉強


YouTube から ML を学習するための完全なガイド


最後に


Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。

画像生成AIの実験, 最新情報のまとめはこちら


過去の号はこちら

次の号はこちら


サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます