日刊画像生成AI (2022年9月23日)

2022年9月25日 23:08

画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。

そんな中、毎日時間なくて全然情報追えない..！って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。

諸事情で投稿が少し遅れています。ごめんなさい。
なんとか戻します。

昨日までの投稿はこちら

開発

krea.aiがAPIとデータセットを公開。

Lexica.artに続き、プロンプト&生成画像検索サイトkrea.aiがAPIとデータセットを公開。データセットは、Stable Diffusion v1.3 のベータテスト中に Stability AI Discord からスクレイピングされた 1,000 万を超える世代を含む大きな CSV ファイルだそうです。APIはこちら。

now you can access to all the data we used to build https://t.co/V31Uw5b10E ✨👇https://t.co/ecX9qZoky2
— KREA AI (@krea_ai) September 22, 2022

krea.aiはこちら

Runwayが、スーパースローモーション機能を紹介。

こちら元々実装されていたのか不明なのですが、紹介ビデオが公開されていました。ビデオを見る限り、AIで補間しているんでしょうか？AfterEffectsに搭載されている補間機能との違いが気になるところです。Webで誰でもできるというのは嬉しいですね。

Introducing Super-Slow Motion

Smoothly transform any video into Super-Slow Motion. Make videos slow down to 300fps with just one click.

Available now: https://t.co/ekldoIshdw pic.twitter.com/PLsZ2zsBei
— Runway (@runwayml) September 23, 2022

声で画像生成。 Whisper2StableDiffusion

本当に魔法っぽくなってきましたね。数日前公開されたOpenAIのWhisperで音声解析して、それでStableDiffusionに入力できるようです。

A @Gradio demo on @huggingface for 🪄

✨Whisper to StableDiffusion ✨

Try it to generate 2 images by speaking in your native language ! 🤗

*Runs on CPU, if you like it, ask the HF team a GPU for this space 🙏#Whisper #OpenAI #StableDiffusion https://t.co/bTuHA2HH47
— Sylvain Filoni (@fffiloni) September 22, 2022

GET3D / NVIDIA AI

（似た領域なので紹介）画像から学習した高品質の3D テクスチャ形状の生成モデルが公開。コードは来週公開されるそうです。

Excited to share our #NeurIPS2022 @NVIDIAAI work GET3D, a generative model that directly produces explicit textured 3D meshes with complex topology, rich geometric details, and high fidelity textures. #3D

Project page: https://t.co/LEkj9eqG69 pic.twitter.com/vF9Nqbe9NO
— Jun Gao (@JunGao33210520) September 23, 2022

テキストを使用して、3D生成を制御もできるそうです。

We can even use text to control the 3D generation! Following StyleGAN-NADA we can take the user-provided text and finetune our 3D generator using CLIP embedding. GET3D generates a large number of meaningful shapes from text prompts. pic.twitter.com/24Lb38eQ54
— Jun Gao (@JunGao33210520) September 23, 2022

Custom inpainting model

基本的なinpaintingだとexposure biasの問題があって、元々の画像が割と無視されることがあるけど、このカスタム学習されたインペイント・アウトペイントモデルを使えばそうならないそうです。

表現

Deforum Music Video紹介

AIアニメーションが作れるDeforum Stable Diffusionで、音楽に合わせてプロンプトを変更している方がいたので紹介。かなりかっこいいPVが作れそうですね。

Another #deforum music video experiment. This time using the beat not for 3D movement, but switching the scene. Slight NSFW warning though, #stablediffusion thought the video needs a pair of nipples 😅 Full video containing 238 prompts is coming soon, stay tuned! #aiia #aiiart pic.twitter.com/U1yQTdvoWq
— Dreaming Tulpa (@dreamingtulpa) September 23, 2022

Cool - I've tweaked the audio reactivity with this @deforum_art/#stablediffusion animation until it's right.
I isolated the drums and tweaked the audio-keyframe function. The cat should only change when the drum beats. Zoom also mapped to audio. 🐱🐱🐱
Music - @mubertapp #aiart pic.twitter.com/S24ONC7akW
— TomLikesRobots (@TomLikesRobots) September 21, 2022

音に合わせたキーフレームを作るのはこのツールを使うとできます。
strength_scheduleにここで生成したコードを入れるといいですが、計算式を音楽によってうまく調整しないといい感じにならないと思います。少し工夫がいります。

僕はこちら今日試してました。Blenderのカメラ操作のやつと繋げたい。

Coral Audio Visualizer#stablediffusion #aiart #deforum @deforum pic.twitter.com/ciFQ1KpUvu
— やまかず (@Yamkaz) September 25, 2022

この日よかったAIアニメーション

この方のアニメーションがおしゃれで、何かストーリーを感じるような作品で素敵でした。メモ。

I discovered something beautiful, it was locked inside me. pic.twitter.com/P6rECymPej
— Artificial Bob (@ArtificialBob) September 23, 2022

I hold the light to keep the dark thoughts away pic.twitter.com/AjSNeNhclD
— Artificial Bob (@ArtificialBob) September 22, 2022

研究・活用・解説

Stable Diffusionの内容を理解するための情報・書籍まとめ

（「日刊画像生成AI」も紹介していただいてました！）

DreamBoothをGoogle Colabで実行するデモ

DreamBoothをGoogle Colaboratoryで実行するデモ記事を投稿しました。自分の子どもや飼い犬といった任意の対象を主役として、好きなシチュエーションで画像を自由に生成できる、とても面白い手法なので、ぜひご覧ください。
【Google Colaboratory】DreamBoothによる好きな…https://t.co/fxWifdTfWn
— amaru (@amaru_ai) September 23, 2022

思想・ムーブメント

アーティストは、人気のある AI トレーニングデータセットで個人の医療記録の写真を見つけます

以前登場した、Stable Diffusionの学習データセットのLAIONに画像が含まれているか検索できるサイト、haveibeentrained.com。このサイトでLapineという方が自分の主治医が撮影した私的な医療記録の写真を発見したそうです。削除するように求めていますが..。LAION のエンジニアであるRomain Beaumontさんは、「インターネットから画像を削除する最善の方法は、ホスティング Web サイトにそのホスティングを停止するよう依頼することです」であったり、学習禁止の画像リストがあれば、トレーナーが画像のブラックリストを載せることは決定できる。ということなどを話されていました。そういう対応になりそうですね。

Lapineさんのツイート。

🚩My face is in the #LAION dataset. In 2013 a doctor photographed my face as part of clinical documentation. He died in 2018 and somehow that image ended up somewhere online and then ended up in the dataset- the image that I signed a consent form for my doctor- not for a dataset. pic.twitter.com/TrvjdZtyjD
— Lapine (@LapineDeLaTerre) September 16, 2022

ダイバーシティニュース「テクノロジー/AI」：清水亮

memeplexを開発されて、初期から画像生成AI界隈にいらっしゃった清水さんがこちらのニュースで話されています。個人的には過去の「検索」の黎明期の話と今の画像生成AIとの比較の話が好きです。

スタイルを著作権で保護することはできません。

100年以上前から決着している著作権法の一部として、スタイルに関係なく、固定されたメディアで行われた個々の作品に適用することができますが、スタイルそのものに適用することはできません。とのこと。（米国著作権局のhttps://www.copyright.gov/circs/circ33.pdf, https://www.copyright.gov/circs/circ01.pdf より）

著作権保護されないもの
アイデア、手順、方法、システム、プロセス、概念、原理、または発見 - 有形の形態に固定されていない著作物（例えば、記譜または録音されていない振付作品や、書き留められない即興スピーチ） - タイトル、名前、短いフレーズ、スローガン - おなじみの記号やデザイン - タイポグラフィー装飾、文字、彩色の単なる変形 - 原材料またはコンテンツの単なるリストアップ。

例えば、バンクシーと同じ構図で作るならそれはコピーだけど、バンクシー風に全く独自の構図で書けば、アメリカの著作権法では事実上クレームはないとのことです。つまりプロンプトに著作権はないとのこと。

勉強

画像生成AIの1ヶ月間

QosmoのCOOのシバタアキラさんが1ヶ月間の動向の中のトピック部分をさらってくれています。簡易的にまとめて知りたい方はこちらチェックです。

最後に

Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。よかったらフォローしてくれるとうれしいです。

Tweets by Yamkaz

画像生成AIの実験, 最新情報のまとめはこちら

前回の号はこちら

次の号はこちら

サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます

日刊 画像生成AI (2022年9月23日)

開発