見出し画像

日刊 画像生成AI (2022年9月23日)

画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。

"夢の中"

そんな中、毎日時間なくて全然情報追えない..!って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。


諸事情で投稿が少し遅れています。ごめんなさい。
なんとか戻します。


昨日までの投稿はこちら


開発


krea.aiがAPIとデータセットを公開。

Lexica.artに続き、プロンプト&生成画像検索サイトkrea.aiがAPIとデータセットを公開。データセットは、Stable Diffusion v1.3 のベータ テスト中に Stability AI Discord からスクレイピングされた 1,000 万を超える世代を含む大きな CSV ファイルだそうです。APIはこちら。

krea.aiはこちら


Runwayが、スーパースローモーション機能を紹介。

こちら元々実装されていたのか不明なのですが、紹介ビデオが公開されていました。ビデオを見る限り、AIで補間しているんでしょうか?AfterEffectsに搭載されている補間機能との違いが気になるところです。Webで誰でもできるというのは嬉しいですね。


声で画像生成。 Whisper2StableDiffusion

本当に魔法っぽくなってきましたね。数日前公開されたOpenAIのWhisperで音声解析して、それでStableDiffusionに入力できるようです。


GET3D / NVIDIA AI

(似た領域なので紹介)画像から学習した高品質の3D テクスチャ形状の生成モデルが公開。コードは来週公開されるそうです。

テキストを使用して、3D生成を制御もできるそうです。


Custom inpainting model

基本的なinpaintingだとexposure biasの問題があって、元々の画像が割と無視されることがあるけど、このカスタム学習されたインペイント・アウトペイントモデルを使えばそうならないそうです。


表現


Deforum Music Video紹介

AIアニメーションが作れるDeforum Stable Diffusionで、音楽に合わせてプロンプトを変更している方がいたので紹介。かなりかっこいいPVが作れそうですね。

音に合わせたキーフレームを作るのはこのツールを使うとできます。
strength_scheduleにここで生成したコードを入れるといいですが、計算式を音楽によってうまく調整しないといい感じにならないと思います。少し工夫がいります。

僕はこちら今日試してました。Blenderのカメラ操作のやつと繋げたい。


この日よかったAIアニメーション

この方のアニメーションがおしゃれで、何かストーリーを感じるような作品で素敵でした。メモ。


研究・活用・解説


Stable Diffusionの内容を理解するための情報・書籍まとめ

(「日刊 画像生成AI」も紹介していただいてました!)


DreamBoothをGoogle Colabで実行するデモ


思想・ムーブメント


アーティストは、人気のある AI トレーニング データ セットで個人の医療記録の写真を見つけます

以前登場した、Stable Diffusionの学習データセットのLAIONに画像が含まれているか検索できるサイト、haveibeentrained.com。このサイトでLapineという方が自分の主治医が撮影した私的な医療記録の写真を発見したそうです。削除するように求めていますが..。LAION のエンジニアであるRomain Beaumontさんは、「インターネットから画像を削除する最善の方法は、ホスティング Web サイトにそのホスティングを停止するよう依頼することです」であったり、学習禁止の画像リストがあれば、トレーナーが画像のブラックリストを載せることは決定できる。ということなどを話されていました。そういう対応になりそうですね。

Lapineさんのツイート。


ダイバーシティニュース「テクノロジー/AI」:清水亮

memeplexを開発されて、初期から画像生成AI界隈にいらっしゃった清水さんがこちらのニュースで話されています。個人的には過去の「検索」の黎明期の話と今の画像生成AIとの比較の話が好きです。


スタイルを著作権で保護することはできません。

100年以上前から決着している著作権法の一部として、スタイルに関係なく、固定されたメディアで行われた個々の作品に適用することができますが、スタイルそのものに適用することはできません。とのこと。(米国著作権局のhttps://www.copyright.gov/circs/circ33.pdf, https://www.copyright.gov/circs/circ01.pdf より)

著作権保護されないもの
アイデア、手順、方法、システム、プロセス、概念、原理、または発見 - 有形の形態に固定されていない著作物(例えば、記譜または録音されていない振付作品や、書き留められない即興スピーチ) - タイトル、名前、短いフレーズ、スローガン - おなじみの記号やデザイン - タイポグラフィー装飾、文字、彩色の単なる変形 - 原材料またはコンテンツの単なるリストアップ。

例えば、バンクシーと同じ構図で作るならそれはコピーだけど、バンクシー風に全く独自の構図で書けば、アメリカの著作権法では事実上クレームはないとのことです。つまりプロンプトに著作権はないとのこと。


勉強


画像生成AIの1ヶ月間

QosmoのCOOのシバタアキラさんが1ヶ月間の動向の中のトピック部分をさらってくれています。簡易的にまとめて知りたい方はこちらチェックです。


最後に


Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。よかったらフォローしてくれるとうれしいです。

画像生成AIの実験, 最新情報のまとめはこちら


前回の号はこちら

次の号はこちら


サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます