![見出し画像](https://assets.st-note.com/production/uploads/images/92019380/rectangle_large_type_2_fe2bf3b44d75460f67dc1ef16552fa34.jpeg?width=1200)
日刊 画像生成AI (2022年11月19-20日)
ジェネレーティブAI界は、今とても早いスピードで進化し続けています。
そんな中、毎日時間なくて全然情報追えない..!って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。
![](https://assets.st-note.com/img/1669457856768-hZCla1pfme.jpg?width=1200)
📣お知らせ
ジェネレーティブAIで取り組みたい事業があり現在進めていますが、
Webアプリケーション開発ができ今後一緒に取り組める方を探しています。
言語, 環境: AWS, React native, Python, Flutter, …など
もし興味がありましたら、TwitterでDMをいただけますと幸いです🙇
OpenAI Startup Fundに提出したよ😆
OpenAI Startup Fundに提出したよ😆
— やまかず (@Yamkaz) November 26, 2022
英語喋れないけどなんとか喋って頑張った!https://t.co/Sixsn9LdKb
過去の投稿はこちら
開発
元素法典 2.5巻が公開!
![](https://assets.st-note.com/img/1668974296214-7Yt1tMmCxH.png?width=1200)
元素法典の2.5巻が公開!
— やまかず (@Yamkaz) November 20, 2022
NovelAIの高品質な魔導書「元素法典」の2.5巻が公開されました。独自性や新しい表現を重視した2.0巻とは違い、再び美しい絵そのものに焦点を当てているとのことhttps://t.co/aCwfW3cnUf pic.twitter.com/8gnNdqVSFV
ざっと確認した所、今回は新しく平面的なイラストレーションの事例も多数含まれていました pic.twitter.com/xRfcfdVBHn
— やまかず (@Yamkaz) November 20, 2022
複雑度が高い魅力的な絵も多数収録されています pic.twitter.com/XrQIw5OQXT
— やまかず (@Yamkaz) November 20, 2022
あるふさんのCool Japan Diffusion進歩共有
【進捗共有その1】
— あるふ (@alfredplpl) November 20, 2022
学習用Cool Japan Diffusionですが、学習し直してまだ途中です。この時点でテストで生成された1024枚のうち、64枚を選んでタイル状にしました。これらは1枚あたり2秒でAIにより構図を考えられ、生成されました。クリエイターの方は見ない方がいいかもしれません。 pic.twitter.com/diaxkrX4oA
Haruさん(WD開発者)がArtstation-Diffusionが公開
Haru氏より、Artstation-Diffusionとかいう、Artstationの5万枚の画像でファインチューニングされたSDモデルが着弾!これはWD1.4開発のテストとして作成されたらしい。マルチアスペクト比バケッティングが使われており、色んな解像度で生成してもかなり良く生成されるらしい! https://t.co/iyM3yeU1Jh
— うみゆき@AI研究 (@umiyuki_ai) November 20, 2022
VRoidの衣服アセットでトレーニングされたモデルが公開
Anything V3ベースで、VRoid衣装アセットでトレーニングしたモデル。でもここまで行くとAnything V3がNovelAIリーク使ってるよねとかもうどうでも良くなるくらい違うものになっている。
![](https://assets.st-note.com/img/1668979225192-UKuo4twwbm.png?width=1200)
StableDiffusion+DALLE2 for Photoshop by Cantrellに新しいinpaintingモデルを追加するらしい
StabilityAIのプロダクト担当副社長のCantrellさんのプロダクトに新しいinpaintingモデル(runwayの1.5モデル?)が追加されるようです。
There's an all-new inpainting model coming to the @StableDiffusion @Photoshop plugin. pic.twitter.com/oS6gzragwb
— Christian Cantrell (@cantrell) November 18, 2022
Art of MtG v1モデルが公開
このモデルは、Dreambooth でトレーディング カード ゲーム Magic: the Gathering の約 5000 アートでトレーニングされ、アーティストや画像に関連するさまざまな情報が適切にタグ付けされています。
![](https://assets.st-note.com/img/1668980117421-uAqv2227rR.png?width=1200)
Nagel inspired model v1が公開
![](https://assets.st-note.com/img/1669200539580-eTzkS2YSK9.png?width=1200)
Yoji Shinkawaモデルが公開
![](https://assets.st-note.com/img/1669200545425-KHlglWzvKX.png)
![](https://assets.st-note.com/img/1669200551391-Vlcertjd4K.png)
(ここから少し画像生成AIと離れます)
Clip.audioがリリース
テキストからオーディオを生成する最強の方法
— やまかず (@Yamkaz) November 23, 2022
「https://t.co/fAxv8UQi8A」がリリースされてた
1.正確なオーディオをすばやく検索
2.より関連性の高い結果を得るためのお気に入り機能
3.新しい音声の生成 (近日公開)pic.twitter.com/UrtrXSUeT1https://t.co/dwm1YnIGJL
OneFormerのdemoが公開
研究としては、一度学習すれば3つの画像セグメンテーションタスク(セマンティックセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーション)すべてにおいてSOTA性能を達成できる、真に普遍的な画像セグメンテーションフレームワークを開発することが目的。
このOneFormerモデルは、ADE20k、CityScapes、COCOの3つのセグメンテーションタスクすべてにおいて、Mask2Formerモデルが3倍のリソースで3つのタスクそれぞれについて個別に学習したにもかかわらず、Mask2Formerモデルを上回る性能を発揮するらしいです。そのdemoが公開。
The @Gradio Demo for OneFormer: One Transformer to Rule Universal Image Segmentation is out on @huggingface Spaces
— AK (@_akhaliq) November 18, 2022
demo: https://t.co/4epVNKXU8I pic.twitter.com/0wrTzRX29O
OneFormerのArxivはこちら
UniformerV2のHuggingface demoが公開
動画からキャプション生成できている。野球ボールを打ってる動画を入力して「hitting baseball」と出力されてる。
We give a hugging face demo (https://t.co/K4E7BG3xHD) to use our UniFormerV2. Have a try! BTW, all the models are released in our repo (https://t.co/B0Skd3nqJR).
— Kunchang Li (@likunchang1998) November 20, 2022
To our best knowledge, they are the best open-source models. We hope they can help the community. pic.twitter.com/YNZ8ORFHuc
UniformerV2は、識別可能な時空間表現を学習するための新しいパラダイム。つまり動画からキャプションを生成するモデル..?
このアプローチは既存のVision Transformer (ViT)モデルをベースとし、性能向上のためにnew localおよびglobal relation aggregatorsを追加したものらしい。Kinetics-400, Kinetics-600, Kinetics-700, Moments in Time, Something-Something V1, Something-Something V2, ActivityNet, HACSといった8つの有名なビデオベンチマークにおいて既存のモデルより優れた性能を発揮することができるとのこと。
大きくしない方がいい。
GPT-3の品質を0.1%のコストで手に入れる方法
[1/5] **Spoiler alert** We trained a model with the same accuracy as GPT-3 (fine-tuned) that was 1400x smaller with 0.1% of the inference cost. How? With Data-centric Foundation Model (FM) Development in Snorkel Flow. Highlights in the thread 👇: https://t.co/dIhuFcvjth
— Snorkel AI (@SnorkelAI) November 19, 2022
これすごいな。ざっと読んだ感じだと大規模言語モデル(1000億パラ以上)等で特定のドメイン領域(法律)のデータセットを拡張し、そのデータセット用いて1.2億パラメータの言語モデルをガンガン訓練することで大規模言語モデルに匹敵する特定タスクへの能力を発揮するぽい。やば、0.1%のパラメータで? https://t.co/92de9udJuA
— bioshok(INFJ) (@bioshok3) November 19, 2022
データを中心としたアプローチがどのようにモデルのサイズを縮小し、パフォーマンスを向上させ、モデルのトレーニングとデプロイのコストを削減するために使用できるかについて。
ただ、全ての基盤モデルの性能向上、コスト削減にはならないらしい。
表現
Disturbed - Bad Man [Official Music Video]
Midjourneyの画像で構成されているミュージックビデオをDisturbedが公開。制作に1ヶ月を要したそうです。すげぇ!
Izumi Satoshiさん、DreamBoothで元動画を学習させ破綻を防ぎつつ、プロンプトで任意の絵柄を適応する
izumi satoshiさんの実験。めちゃくちゃ上手くっている。かわいい。
これ見てさこゆい体操にハマってしまいずっと聞いてる..
うおおおお!京アニ手描き風のセーラー服初音ミクがかわいい!そして「dreamboothで元動画を学習させ破綻を防ぎつつ、プロンプトで任意の絵柄を適応する」というやりたかったことが出来てる!!
— Izumi Satoshi (@izumisatoshi05) November 20, 2022
プロンプトエンジニアリングを頑張れば伸びしろはまだまだあるだろうけど、いったんそれは後回し→ pic.twitter.com/qqnV56E1vY
映画の風景みたいなMidjourney v4出力物
このクオリティで動画生成できる未来楽しみすぎる。
all that matters#aicinema generated in #midjourneyV4, outpainted in #dalle2, color corrected in #photoshop pic.twitter.com/qBdRFbmZH7
— Julie W. Design (@juliewdesign_) November 19, 2022
30分でStable DiffusionとBlenderで宇宙船の3Dモデルを作ってる事例
A 30-min. exercise in using #StableDiffusion and #B3D to make a spaceship 3D model. Could be great for games prototyping! #AIArt pic.twitter.com/uolNqH6PDQ
— Albert Bozesan (@AlbertBozesan) November 20, 2022
私の2人の友人の写真で訓練されました(ワークフロー有)
![](https://assets.st-note.com/img/1669361282127-fNGlckSZct.png?width=1200)
研究、検証など
Disco Diffusion Artist Study
proximaさん、KyrickYoungさんなど古参勢がやってるプロジェクト、DiscoDiffusion Artist Studies が本日正式に終了。
4,243 のスタイルを完成がまとめられています。すごい!
here’s the great write-up by @sureailabs where you can read more about this project: https://t.co/789P6tMWod
— proxima centauri b (@proximasan) November 19, 2022
officialy finished the #DiscoDiffusion Artist Studies today! 🥳 we completed 4,243 styles 🤯 thanks so much for working with me on this 🥲 @sureailabs @KyrickYoung @EErratica @yontelbrot
— proxima centauri b (@proximasan) November 19, 2022
here's the last "beautiful painting of a waterlily pond" that rendered: pic.twitter.com/tqrRt5Slqe
ResNet guided Stable Diffusion
ResNet guided Stable Diffusion(指定した画像にResNetの特徴量が近づくように画像生成する)を実装したので、前フレームの生成画像に近づくようにしてimg2imgしてみた。前のより若干一貫性が良くなったような……。元画像の25fpsを15fpsへ落としてます。
— Kohya S. (@kohya_ss) November 20, 2022
strength 0.15, scale 25.0, steps 200 pic.twitter.com/t3nu2KtKy9
StableDiffsionで作るウォーキングのアニメーション事例
SDiffusion -> Frame-to-Frame animation! This is not the best result. Try to iterate slowly and keep maximum consistency during the process.
— Lucas Ferreira da Silva (@bioinfolucas) November 20, 2022
#stablediffusion #indiegames #GodotEngine #2danimation @emmanuel_2m@KaliYuga_ai
@Scobleizer
@PublicPrompts
@EMostaque pic.twitter.com/tNVNwuRcZi
Lattent Diffusion modelによる超解像
サンプラーの得意、不得意まとめ
やっぱりddimいいですよね!個人的にもddim一番好き。
チラ裏
— あいおえおえかきの (@NovelAIoekaki) November 18, 2022
○ k_euler_ancestral → 人物が得意。プロンプトに忠実
○ k_euler → 背景+魔法系エフェクトが得意
× k_lms → 漫画的塗り。人物描写が苦手
○ plms → 漫画的塗り。たまに高クオリティの絵ができる
◎ ddim → 別次元。背景と構図が得意。手の描写が苦手。
↓plmsのSSR
#NovelAI pic.twitter.com/kXqjK4I4hQ
世界での画像生成AIサービス比較調査
各AI画像生成サービス(OSS含む)について、2022年3月以降の人気の比較調査してみました。
— PromptStreamの中の人 (@promptstream) November 20, 2022
1/ まず、日本では #novelAI が今一番人気です。しかし、 pic.twitter.com/cXJIdqA3sw
5/ 中国では地域でかなり利用するAIが違うらしい。
— PromptStreamの中の人 (@promptstream) November 20, 2022
どうも海沿いの住民は全部試しているが、内陸では #novelAI が優勢らしい。
なぜでしょう? pic.twitter.com/JpDjAGoIql
Nijijourneyざっくり感想
#nijijourney ざっくり感想
— 猫黒夏躯 (@NatsukuPhoto) November 20, 2022
・クローズドβ版より進化してる
・NAIで使ってたPromptを流用しても全然結果が違うので,これ用のPromptを練る必要あり
・長々したPromptより,短めにしてnijijourneyにお任せした方が良い部分強そう
・やはり背景が強い.その上で銃や楽器の破綻も少ない
かなり良い感じ! pic.twitter.com/UXusJI3wdk
電々さんのNovelAI、年齢の表現まとめ
年齢の表現(間違いあったので再掲)#NovelAI #AIイラスト #NovelAIDiffusion pic.twitter.com/lGDWmuGGhg
— 電々 (@den2_nova) November 20, 2022
メモ: 「#」など特殊文字で好きなモデルを整理できるよ
![](https://assets.st-note.com/img/1668979490438-sOYZYqP91y.png)
プロンプトの影響の与え方の図
AI研究者の方と会話するの楽しい。ホクホク。
— らけしで (@lakeside529) November 18, 2022
red shirt yellow skirt
で汚染の方向はあるけれど
服→色への汚染もあるからやっぱり
red skirtもyellow shirtも出る。
つまりこういうイメージ(↓)なのかな?
ん、これだと呪文の距離を離すのは色汚染に有効ってことになる?
検証する価値あるか。 pic.twitter.com/iw8XAexRBe
Automatic1111 の WebUI を使用するための Noob ガイド
思想・ムーブメント, ブログ, メモ
Mira Murati - DALL-E 2とAIの力|The Daily Show
(3週間前のもので拾えていなかったもの)
OpenAI最高技術責任者のMira Muratiさんが、『DALL-E 2』の創造力、AIを使うことで生じる倫理的・道徳的問題、そして人工知能がどのように社会の想像力を高め、形づくることができるかについて語っています。
概要のメモ
AIはどうやって画像を作るの?
画像をコピーしているのではないからです。何もないところからイメージを作り出しているのです。このことに恐怖を感じる人たちがいます。
どうやって防ぐのか、あるいは完全に防ぐことができるのか?
あなたのチームは、仕事や人生の大きな意味、あるいは人間が持つ目的についても考えていますか?
AIが人々の仕事とは何かを徐々に奪っていくと、同じ目的を持たなくなった人々の層が厚くなっていくことでしょう。他の革命と同じように、新しい仕事が生まれ、愛される仕事も出てくるとは思います。
画像と言葉。2026年のAI
(前に載せていたらごめんなさい。)
【悲報】AI絵師さん、頼まれてもないのに他人のイラストをAIアレンジしてしまう
【悲報】AI絵師さん、頼まれてもないのに他人のイラストをAIアレンジしてしまうhttps://t.co/PJ1iC1k9x7 pic.twitter.com/vMp4uETw5f
— 滝沢ガレソ⭐ (@takigare3) November 19, 2022
コマーシャル アート テクノロジーの波に乗ってきた 40 年間を振り返る
AI を使用して 12 年間のテレビ出演を研究
AIアートは本当にアートなのか?カリフォルニアのギャラリーは「イエス」と言う
検索の黄昏
AIの可能性を広げる新チップ
https://www.quantamagazine.org/a-brain-inspired-chip-can-run-ai-with-far-less-energy-20221110/
ニューラル言語モデルは実際には非常に長い間存在していましたが、今日の範囲に近いところは誰も気にしていませんでした
An interesting historical note is that neural language models have actually been around for a very long time but noone really cared anywhere near today's extent. LMs were thought of as specific applications, not as mainline research unlocking new general AI paths and capabilities
— Andrej Karpathy (@karpathy) November 18, 2022
Search is Overfitted Create; Create is Underfitted Search
「Generative AIは、今後ニューラル検索にとって最大の競争相手となるかもしれない。」であったり「検索と創造は表裏一体。」など
面白い!
— bioshok(INFJ) (@bioshok3) November 18, 2022
つまり、検索と生成(創造)は世界に対して過学習するかアンダーフィッティングするかでしかない。世界の事実を忠実に返すのが検索、解釈やクリエイティビティを加えると生成AIに。未来は正確な検索も創造的な意見やコンテンツの生成もグラデーション的に変更し実行できるようになるだろう。 https://t.co/wHENAj1EXi
勉強
5分以内にHFにDreamBoothのDemoをアップロードする
あまり知らなかったのでメモ。こんな感じでアップできるんですね
Demo your DreamBooth in less than 5 minutes!
— Patrick von Platen (@PatrickPlaten) November 19, 2022
1. Drag'n'drop @diffuserslib folder to the🤗 Hub
2. Add "text-to-image" tag to activate blazing fast GPU inference widget#stablediffusion pic.twitter.com/Jzev9Zy3VX
最後に
Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。
画像生成AIの実験, 最新情報のまとめはこちら
過去の号はこちら
サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます