日刊画像生成AI (2022年11月8日)

やまかず

2022年11月12日 18:14

ジェネレーティブAI界は、今とても早いスピードで進化し続けています。

そんな中、毎日時間なくて全然情報追えない..！って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。

過去の投稿はこちら

開発

InfiniteNature-Zero

GoogleAIの新しい研究が公開。静止写真からの 3D フライスルーの生成を可能にする。以前は動画データだけでトレーニングしたけど、今回は静止画像だけのようです。1枚の画像さえあればその世界を歩き回れるの楽しそうだな..

Read about our latest work from a research effort called Infinite Nature, which can produce high-quality flythroughs of richly detailed natural landscapes starting from a single seed image, using a system trained only on still photographs → https://t.co/sYKGpz1ivC pic.twitter.com/jQ3hZ5s0aO
— Google AI (@GoogleAI) November 7, 2022

Runwayが「Text to Color Grade」を搭載

AIツールをひたすら搭載し続けている、AIマジカルツール「Runway」に「Text to Color Grade」が搭載。テキストを入力すれば動画のカラーを調整することができる。通常AfterEffectsなどでちょこちょこパラメーターをいじったりする作業がテキスト入力だけでできてしまうのは本当に楽で素晴らしい。

Introducing Text to Color Grade

Use natural language to color grade your videos. Create expressive styles just by using descriptive text.

Available now: https://t.co/gXrS0lY5El pic.twitter.com/3MjH72AQiy
— Runway (@runwayml) November 8, 2022

Lexicaがモデルを開発中

Lexicaがモデルを作っており、数日後に公開されるとのこと。
写真レベルのハイクオリティなモデルでMidjourneyの--testpあたりのポートレート出力感。LexicaのGenerate機能に導入されるってことでしょうか。楽しみです

Here are a few samples from the latest Lexica model. Will be live for everyone to play with in a few days.

To beta test it, just reply here with a prompt. pic.twitter.com/bvXKcCS25h
— Sharif Shameem (@sharifshameem) November 7, 2022

DPM-Solver++にDiffuserが対応

10~20ステップで通常のサンプラーの100~200ステップあたりの表現ができるDPM Solver++がDiffuserに対応したそうです。

Happy to announce that our recent work "DPM-Solver" (Neurips 2022 Oral) and "DPM-Solver++" have been supported by the widely-used diffusion library @diffuserslib! An online demo for DPM-Solver with Stable-Diffusion: https://t.co/CIXeUM8vZq. Many thanks to @huggingface teams!
— Cheng Lu (@ChengLu05671218) November 8, 2022

Text to Figma

Introducing text-to-figma: build and edit @figma designs with natural language!

Join the waitlist here: https://t.co/81KKqnZ3HO

1/n pic.twitter.com/Bw3sw31HaM
— Jay Hack (@mathemagic1an) November 7, 2022

Nerf Studioで焦点アニメーションが利用可能に

Animating focal lengths now enabled in nerfstudio 🔭

Check out this capture from Egypt using nothing but a phone 🐫#NeRF #nerfacto #AIart #neuralrendering #pyramids #Egypt pic.twitter.com/MtKimJkK6Q
— nerfstudio (@nerfstudioteam) November 7, 2022

StableDiffusion オートエンコーダーのlatent diffusion upscaler

Stability AIに所属（おそらく）、かつ元オープンソース界隈で色々開発されていた有名な方、Rivers Have WingsさんがStability AIと共同でSDのオートエンコーダーのlatent diffusion upscalerを制作されたようです。

I've trained a latent diffusion upscaler for the Stable Diffusion autoencoder (and anything you feel like feeding into it if you can tolerate a little artifacts) in collaboration with @stabilityai. Try the Colab written by @nshepperd1 here: https://t.co/aNqKfn1Mxl pic.twitter.com/Ht9Pb3IhkW
— Rivers Have Wings (@RiversHaveWings) November 7, 2022

Comic Diffusion がV2に進化。複数のトークンに対応

6つのスタイルを同時に学習させ、トークンを自由に組み合わせることで、誰でもユニークで一貫性のあるスタイルを作ることができます。同じリストの順番を変えるだけでも結果が変わるので、いろいろと試してみてください。これは、誰でも簡単に、柔軟にマンガの企画ができるようにと作られたものです。私がこれまでdreamboothで試してきたことの集大成です。

V2のトークンは、
charliebo artstyle、holliemengert artstyle、marioalberti artstyle、pepelarraz artstyle、andreasrocha artstyle、jamesdaly artstyle

Redditで複数トークンの場合の学習方法について後半で言及してる

Midjourney V4 Diffusionが公開

Midjourney v4の出力画像でSD 1.5をトレーニングしたモデルが公開されました。プロンプトとして「mdjrny-v4 style」を使うとこのスタイルを適用できる。もうMidjourney課金してないよ！って人はこれ使ってもいいかもしれない

割と再現できていてすごい。左がSD1.5、右がファインチューニングモデル

Papercutモデルが公開

Papercut画像でトレーニングされたSDモデルが公開。プロンプトに「PaperCut」で利用できます。

プロンプトテスト用のスクリプトが公開

画像生成する際、どのプロンプトがちゃんと効いているか判断したいけどいちいち生成していると時間がかかるし..って時があると思います。
このATOMATIC1111用スクリプトを使うと、1単語ごとに抜いてまとめて検証してくれるようです。

例えばこれは「banana, on fire, snow」で入力して、このスクリプトを使った例。

Thisdogexists

AI画像かテストするページ。AIで生成された犬が3匹、本物が一匹混じってる。しかも本物の犬の飼い主になることができる。サイトを運営している団体「Wags and Walks」は助けを必要としてるワンちゃんを救い出して、里親を募集している非営利団体。

https://thisdogexists.com/

絶対いける！って思ったら1問失敗しちゃった..。背景のディテールだけ見たら大体分かるけど、Midjourney v4のだと分からなそう。

AI犬か、本物の犬か見分けるサイト見つけたhttps://t.co/dmYHGgnx5T

しかも本物の犬の飼い主になることができる。
サイトを運営している団体「Wags and Walks」は助けを必要としてるワンちゃんを救い出して、里親を募集している非営利団体 pic.twitter.com/a40zWevVdu
— やまかず (@Yamkaz) November 12, 2022

Adobe Podcast

画像生成AIじゃないですが、この日素晴らしいAIを使ったサービスが公開されたので紹介。AdobeがAIを使ったPodcastの編集、録画ツールを公開。これ見たけどかなりやばいです。簡単に説明すると、一緒にリモートで話してテキストを起こして文字起こしされた部分を削除して、消したいところを簡単に削除したり、間に音声を楽に入れたり、ノイズ除去もかなり高いクオリティでできています。以下リンクの後半の使用しているビデオを見ていただくと理解できるのでぜひ。

表現

Izumi Satoshiさんの実写→手書き風アニメ変換テスト

AIで実写動画から手書き風アニメに変換するテスト
Three D Pose Tracker → VRMに流し込む → 背景と合成　→ Waifu Diffusion → Waifu2xでフレーム補完

全身が映ってるポーズ推定のやりやすい動画なら、一度3Dモデルを介することで高い精度を達成できることが分かった。 pic.twitter.com/xj5YtYUsqf
— Izumi Satoshi (@izumisatoshi05) November 8, 2022

i2iの下敷きなっている動画はこんな感じ。
VRoid Studioで作成したVRM形式のモデルと、BVH形式のモーションをBlenderに読み込んで撮影した。
正直waifuは味付け程度でしかないので、Three D Pose TrackerのAIがすげえええっていう話な気がする。 pic.twitter.com/SfgjBFMN8s
— Izumi Satoshi (@izumisatoshi05) November 8, 2022

waifu diffusion1.3の設定
WidthとHeightを限界まで上げるのが一番重要だと気付いた。 pic.twitter.com/7dRpfL4PFN
— Izumi Satoshi (@izumisatoshi05) November 8, 2022

まるで4K映画のようが生成画像

ハイクオリティな3Dレンダリングの生成画像

製作者は独自のこういう出力が出るDreamBoothモデルを制作しており、それを利用されています。プロンプトに以下を利用すれば近いスタイルは得られるとのこと。

prompt:
megacity lush garden, complex 3d render ultra detailed, 150 mm, beautiful studio soft light, rim light, vibrant details, luxurious cyberpunk, biomechanical, cable electric wires, microchip, elegant, beautiful background, octane render, H.R. Giger style, 8k
negative:
poor quality resolution, incoherent, poorly drawn, poorly drawn lines, low quality, messy drawing, poorly-drawn, poorly-drawn lines, bad resolution

Midjourney V4 ペーパーマリオ

https://www.reddit.com/r/midjourney/comments/ypea9p/paper_art_with_paper_mario_and_the_mushroom/

https://www.reddit.com/r/midjourney/comments/ypkzyv/paper_mario_part_2/

Midjourney V4 日本人写真

やばすぎる

https://www.reddit.com/r/midjourney/comments/ypi5tk/v4_is_so_awesome_really/

Midjourney V4 iOSアイコン

https://www.reddit.com/r/midjourney/comments/yp239c/ios_icons_blown_away_by_the_results/

検証

Midjourney 2つのUL入力のRemixモードの実験

https://www.reddit.com/r/midjourney/comments/yovzt7/remix_mode_fantastic_memolition/

Midjourney v4のイメージプロンプト検証

すごい、横からとった画像からアイソメトリック画像を生成してて、もうDreamBoothとかそういうレベル。画像入力したら高速なTextual inversion的な仕組みが裏で走ってる..？どうしてるんだろう。識者の方にお聞きしたい..

I took a photo of a coffee shop interior, and asked for an isometric vector view from #midjourney v4

This is so powerful. pic.twitter.com/HZPl9HDK9k
— fofrAI (@fofrAI) November 7, 2022

思想・ムーブメント

AIArtについて書いているメディアへの公開書簡

AIとゲームの未来

Shutterstock の幹部が DALL-E 2 の採用を決定した理由

https://www.emergingtechbrew.com/stories/2022/11/04/why-shutterstock-execs-decided-to-embrace-dall-e-2

Hugging Face と ServiceNow がコード生成 LLM の課題に取り組む方法

勉強

YouTube から ML を学習するための完全なガイド

A lot of Machine Learning (ML) I learned during my Ph.D. was from youtube. I didn't have a guide to do this effectively and thus here it is:

A complete guide to studying ML from youtube: 13 best and most recent ML courses available on YouTube. 👩‍🏫🧵⤵️
— Sanju Sinha (@Sanjusinha7) November 7, 2022

最後に

Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。

Tweets by Yamkaz

画像生成AIの実験, 最新情報のまとめはこちら

過去の号はこちら

次の号はこちら

サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます

日刊 画像生成AI (2022年11月8日)

開発