生成AI忘備録

かたらぎ

2024年4月5日 02:27

画像生成AI

各環境の比較

stableDiffusion WebUI forge版(イージーインストーラー)

Animagine XL 3.0の無料生成スペース

高解像度で画像を生成できる著作権保護された画像を使用していないクリーンモデル

stableDiffusion WebUI 1111版

本体

コマンドラインの種類

Froge版

reForge

　Forgeの後継として実験的立ち位置となったWebUI

SwarmUI

SwarmUI、もしかして現状唯一の、マルチGPUが認識できる画像生成AI環境なのか……？ pic.twitter.com/CLO1RkBbQ6
— 👯‍♀️カガミカミ水鏡👯‍♀️ (@kagami_kami_m) July 18, 2024

ぬわあああん解説忘れてた！ SwarmUIでFLUX使う方法【ダウンロード編】
1. ae.sft は、/Models/VAE フォルダに入れます https://t.co/NZBuJQSWBI

2. flux1-schnell_fp8_unet.safetensorは、 /Models/unet フォルダに入れます https://t.co/S5vKivtX8a

3. unetフォルダです https://t.co/vthIOd198K pic.twitter.com/aji43KZoAF
— 👯‍♀️カガミカミ水鏡👯‍♀️ (@kagami_kami_m) August 4, 2024

stableDiffusionの仕組み：技術レベル別詳細ガイド

AIの仕組み(初心者編)

stableDiffusionの仕組み(上級者向け)

stableDiffusionの仕組み(超級者向け)

stable Diffusionの各種技術はどのように動いているか？

フルサイズのコントロールネット学習方法

Diffusersフォーマットへの変換

データセットアップロード

コントロールネットLoRAのコントロールネット学習方法

anytestの学習についてちょいと……
あれ基本的な部分は、CNllliteでgray2color作ってた頃と一緒……つまり入力側の画像素材はグレースケールで学習させてる

でも単にグレスケ化するだけだと、ただのrecolorになるから、輝度とコントラストをランダムにバラつかせてたりする

例えばこんな感じ pic.twitter.com/o4x5uSiRyZ
— 月須和・那々 (@nana_tsukisuwa) July 17, 2024

WebUI拡張機能

SDXLモデル

ベースモデル(LoRA学習用)

7th_Layer_XL

イージーインストーラーのモデルが置いてある場所(ミラー)
置いてあるモデル
・Juggernaut-XL_v9_RunDiffusionPhoto_v2
・animagine-xl-3.1
・fuduki_mix_v20
・hanamomopony_v12
・hanamomopony_v14
・momoiropony_v14

pony系列のモデルの使い方

9と8upの間、7upと6upの間に画風の壁があって
それぞれから下を切り落とすと洋風のバタ臭さが改善されます（描きこみも落ちるけど）

あとは(source_anime),(ai-generated),がおすすめ
Hにするならnsfwではなくrating_explicitのほうが良く効きます
— moriΦ㊙️ (@o81morimori) April 13, 2024

PCM_SDXL_LoRAs

新しい手法の高速生成技術

animagine xl 3.0用のlcm-lora

何も学習していない素のSDXLモデル

SDXLで崩壊した画像が出るバグの対策

省メモリ化

FLUX.1

　stable diffusionを開発したstabilityAI社の開発者で構成されたスタッフが開発したDALLE寄りの画像生成AIモデル

ローカル環境でFLUX.1を動かす方法をまとめた記事を執筆しました。ComfyUIの導入も含めた初心者向けの記事となってます。

NvidiaのGPU環境はもちろん、メモリが十分にあればMac環境でも問題なく動きます。https://t.co/VkoNhYwl6w
— 金のニワトリ (@gosrum) August 4, 2024

追加学習・モデルマージ

学習全般

　LoRAなどをGUIで簡単に学習できるツール

WindowsとLinuxでの学習速度の比較

CUDA on WSL2の速度比較と環境構築

huggingface-cliログインを使用した際に適切にトークンがコピーされないときはコンソールを右クリックしてください

accelerate configを設定することでaccelerateを使用したトレーニングができるようになります

Finetuning

LoRA

LoRA設定項目解説

LoRA学習

マスクを指定してLoRAを学習してくれるやつ

SDXLにおけるLoRAの学習設定まとめ

海外サイトで拾った画風LoRA学習の設定値がなかなか良いからメモがてらツイートしとこ。

LR Scheduler : constant
Optimizer : AdamW8bit
Learning Rate : 0.0012
Text Encoder rate : 同上
U-net learning rate : 同上
DIM : 128 (64 or 32でも良いかも)
Alpha : 1

気軽に作ろう画風LoRA！！
— スラ (@sura121) December 11, 2023

月須和さんの記事とPDF見たけど、"VRoidからキャラLoRA作る”って最初何のことか分からんかった。つまりVRoidキャラのLoRAを作りたいけど、VRoid臭さは除去したいという事。例えばSDで金髪ツインテ巫女さんキャラを安定して生成したいなあと思ったとする。しかしプロンプトで指定するだけだと生成ごとに…
— うみゆき@AI研究 (@umiyuki_ai) March 1, 2024

キャラクターの一部のパーツをコントロール可能なのかという研究に真摯に取り組んだ結果生まれたのがこの「真・おㄘんㄘんスライダー」です。
結論からすると人体から離れたおㄘんㄘん単体を学習させるだけではダメ。
人体に付属した状態:単体を4:1の割合で学習させると良好な結果が得られた。
— エマノン (@Emanon_14) April 2, 2024

KohyaGUI　SDXLを低VRAMで学習する際の推奨設定

SDXLのLoRA-C3Lier (LoCon), dim(rank)=4, conv_dim=4, bf16/fp16, batch size 1, 解像度1024x1024, サンプル画像出力なしで7GB程度で動くと思います。
— Kohya Tech (@kohya_tech) January 17, 2024

I think SDXL model trained with a 1024x256 bucket resolution, can be a better pre-trained model for training at 2048x512.

Doing training tests with a small subset of the v3 datasets showed that Animagine XL v1, as a pre-trained model, achieved better results compared to v2.… pic.twitter.com/vPgtKgs04E
— Linaqruf (@linaqruf_) December 8, 2023

KohyaGUIトラブルシューティング

WebUI上で学習ができるツール

導入時のエラー対処法

こちら早速インストールしてみたところ、WebUI起動時に「ImportError: cannot import name 'StableDiffusionXLPipeline' from 'diffusers'」のエラーが出て動作せず…
「pip install --upgrade diffusers[torch]」でdiffusersをアップデートしてみたら動作するようになりました。 https://t.co/X8N44oZBsO
— 十条蛍 @AIイラスト (@JujoHotaru) January 19, 2024

データセット・作成ツール

学習補助

CUDAインストールコマンドを簡単に作れるやつ

もしもPyTorchでCUDAが使えなかったら

敵対的学習

モデルマージ

その他の便利情報

AIモデル共有の方法とWebUIカスタマイズ

SDWebUI 1111版でモデルを共有したい場合

SDWebUI forge版でモデルを共有したい場合

WebUIとComfyUIでモデルを共有する方法

kindle版、販売開始。

「本書では、Stable Diffusion Web-UIを使って背景を写真から起こしたり、イラストのキャラと写真を組み合わせて出力する方法を色々と解説しています。」

【実践AI】写真･3Dからの背景起こしとか自作画像を補完する方法https://t.co/MXyMSB1peb #StableDiffusion #Amazon
— えむけぃつぅ＠ギャルゲ塗り始めました (@armored_fairy) February 9, 2024

オンラインでメタデータ表示

NovelAI

NovelAI公式

画像のメタデータを見れる公式ページ

NAI V3版の公式の元素法典

NAI V3版の元素法典

バイブストランスファーを使ったイラスト制作

シトラスさんによるNovelAIで使えるプロンプトの辞典

DALLE3

※ブクマ必須

【99%が知らない】
DALL-E3のスタイル18選。 pic.twitter.com/7uiopXdL4X
— 奥山幸生@AI × マネタイズ(YouTube登録者数日本一) (@okuyama_ai_) June 29, 2024

Webp→png等への変換サイト

　DALLE3ではwebpという拡張子で出力されるため適宜pngなどに変換する必要がある。

Github

GitHubでのReadmeの書き方

Krita

私はSDwebui連携が使えるOSSの画像編集ソフトとしてKritaを画像生成のお供に使ってるんだけど、最近出てたSAM拡張が便利だった。
下みたいに物体を認識して選択できる。多分フォトショなら元から高精度なツールがあるんだろうけど、Kritaのは微妙だったので助かる！#Krita https://t.co/uKpM6oQvLB pic.twitter.com/c9YLR4P202
— 天紗愛 (@Ai_tensa) October 29, 2023

ComfyUI

カスタムノード一覧と翻訳された内容

ComfyUIのAnimateをLCMで高速化する

ComfyUI用のX-Adapter

Efficiency Nodes

　ComufUIの簡易版。ノードがまとまっているため初心者にも簡単にできる

AI画像簡易チェックツール

DALLE3とAdobe Firefly

画像加工ツール

イラスト高画質化

線画抽出

背景削除

超高速で背景を削除してくれる

グリーンバック作成ローカルアプリ

被写体抽出

AI背景素材サイト

モデルライセンス

大規模言語モデル(chatgpt・その他)

無料LLMチャットシステム

　c4ai-command-r-plusやMeta-Llama-3-70B-Instructなどの大規模言語モデルを無料かつGPTライクなUIで操作できるページ

各LLMの性能比較

ChatGPT活用事例

Microsoft社員によるchatgpt活用事例

レベルファイブによる活用事例

Claude3 Opusによる小説批評事例

創作している人は全員読んだ方が良いレベルの記事をカクヨムで発見。

最近発表された生成AI『Claude3 Opus』を創作に活用する試みのまとめ。

12万字の長編小説に対する批評結果の考察がかなり有用で、未回収の伏線チェックや、魅力的なキャラトップ3の分析と、作者が唸るレベルの結果を返す模様。
↓
— なろうファンDB管理人@スコッパー (@narou_fun_db) March 24, 2024

芸大生による生成AI活用事例

例のAIアニメのChatGPTのログをざっと眺めたが、完全にGPT-3.5のキャパシティを超えているレベルで使い込んでいて割と絶句した。GPT-4でもこのレベルは耐えきれないかもしれない。https://t.co/FMk0H5az8R
— あるふ (@alfredplpl) February 2, 2024

AIと小説の歴史

東大などが公開するchatgptの活用事例やpython入門など

Claude3用の公式プロンプトライブラリ

LLMのプロンプト技術まとめ

ChatGPTが無反応だったり日本語に設定しても英語で出力されるときの対処法

ChatGPTのAPIをコマンドプロンプトから使用する方法

研究における文献検索

ここ半年で研究にAIを使い倒した結果、このフローで文献検索するのが私の最適解に。無料で使えて咽び泣くほど便利だった３つのAIに絞って解説しますね。もう検索ターム作りとか、文献データベースのスクロールが過去の概念になったわ…

①Consensusで総意の把握＆重要文献探し… pic.twitter.com/fC1CLNkZYz
— Dr. すきとほる | 疫学専門家 (@iznaiy_emjawak) February 4, 2024

大規模言語モデルLLMにおける学習のコツ

インスタに載せて反響があった
完全初心者向け、ChatGPTの仕組み

他人にAIの基礎を説明する時にでも
自由に使ってくださいな

1/6 pic.twitter.com/ggLUp4LjCz
— usutaku@AI情報解説 (@usutaku_com) June 29, 2024

ローカルLLM

現在最も使いやすいローカルLLMの入門インターフェース

text-generation-webuiはここからダウンロードできる

Google Colabでの実行する場合は下記を参照

自分のPCでの実行方法

現時点日本語最高性能

GPUのVRAMが24GBあれば動くr-V1の4bit量子化版
　text generation WebUI上で動作可能

Command R plus推論速度　4/15更新 https://t.co/EwYRzAqw9W pic.twitter.com/rfPf0qybhn
— AI𝕏サトシ⏩ (@AiXsatoshi) April 15, 2024

日本語チャット・ノベル専用高性能モデル

海外論文翻訳サイト

え、漫画が一瞬で多言語に。

個人的にはスライドを多言語にするの欲しい。

pic.twitter.com/QqcCT8yncl
— 元木大介@生成AI塾&生成AI受託 (@ai_syacho) March 21, 2024

画像をもとに会話できるマルチモーダルAI(LLaVA1.6)

micro-agent

　LLMにコード生成させる時に、先にテストを生成させ、次にコード生成、コードがテストをパスするまで修正を繰り返すところまで自動化する機能

ローカルLLM用データセット

音声・音楽AI

Udioの公式サイトと公式解説

Sunoの公式サイトと公式解説

Microsoft Copilot版のSnoV3のやり方

無料でSunoを使えるサイト

UsioとSunoの比較

Udioの作例

Stable Audio 2.0

🎉Stable Audio 2.0のご紹介🎉
🔈単一のプロンプトから 44.1 kHz ステレオで最長 3 分間の一貫した音楽構造を持つ高品質のフルトラックを生成できる新しいモデルです。https://t.co/Up0OkGQ8xv で今すぐお試しいただけます🎶
詳細はこちら💁‍♀️https://t.co/raChOlL6c7 pic.twitter.com/sPPWFQvVL0
— Stability AI Japan (@StabilityAI_JP) April 3, 2024

PDFの情報を元にAIがラジオを作成

日本語音声認識モデル

ChatGPTで有名なOpenAIが開発した高性能なSpeech to Textライブラリ😊✨ pic.twitter.com/5zYXzyxaSP
— みやさかしんや@Python/AI/DX (@miyashin_prg) January 29, 2024

音声だけを切り取り

ボイスチェンジャー

変換0.047秒の高速変換　GPU不要のボイチェンソフト

動画生成AI

AnimateAnyone

Open Soraの無料生成スペース

AI以外

モリサワによる括弧の使い分け

SNSでバズる方法

Xでバズったポストはどのように拡散されたかの調査をした膨大な資料

漫画も良作なんですが、Twitterさんが「連ツイの1ツイート目からは、ツリーを読めなくなる」というクソ仕様になっておりまして、それが「2ツイート目から読むと全部読める」という裏技があるので、世間の皆様は拡散したい連ツイは2ツイート目を拡散するといいです
— まつえー🐼だらだら中 (@amifiance) December 6, 2023

Xにおける画像比のおすすめ

【X（Twitter）画像サイズ早見表】
マスクさんの気まぐれで仕様変更することもありますが（笑）サイズはこちらがオススメです。
ちなみに𝕏で特に注意すべきは３枚掲載のとき。
変則的な表示なのでお気をつけくださいね。
ではでは、すてきなX画像表示ライフを～😊 pic.twitter.com/KLMpOrW3Ds
— ミヤマ｜営業部にいるデザイナー (@mmmiyama_D) February 13, 2024

インプレゾンビ駆逐用

様々なサービスの解約方法をまとめたサイト

コードが動かない理由

GPUのTips

型番の意味

わかりやすっ
これが知りたかったんだよ！！！ pic.twitter.com/46PlWf2eT2
— コイン精米機 (@seimaiki_coin) February 10, 2024

高性能AIイラスト「SDXL」がForge版のおかげで盛り上がってきたので、6ヶ月ぶりにAIグラボのベンチマークを更新しました

【⬇全8個のベンチ結果】https://t.co/htuvIDCGfq

33枚のグラボで検証した結果
・コスパ：RTX 3060 12GB
・10万未満：RTX 4070
・最強：RTX 4090
という感じに

以前はRTX 4060… pic.twitter.com/RWYLePeF4g
— やかもち＠ちもろぐ (@Yacamochi_db) February 9, 2024

AIと著作権・法律全般

文化庁著作権課から「AIと著作権に関するチェックリスト＆ガイダンス」が公開されました。https://t.co/JMkcfVWwC6

内容的には、「考え方」をベースに、よりわかりやすくしたもので、具体的な対応策も記載されており参考になります。… pic.twitter.com/QzBRIArIPq
— 柿沼　太一 (@tka0120) July 31, 2024

ゲーム・アニメ・広告における生成AI利活用の注意点をひとまとめ　経産省がガイドブック公開https://t.co/n64r3GhMRp
— ITmedia NEWS (@itmedia_news) July 8, 2024

文化庁が毎年作成している著作権法の入門書

柿沼弁護士による

未だ「研究目的のみ」なんてデマ言う人がいるなんて。何周遅れよ。

文化庁もはっきり
※そのため、法第３０条の４では、「享受させることを目的としない」場合であれば、「非営利目的か否か」、「研究目的か否か」といった点を問わず、著作権者の許諾を不要としています。

と研究目的のみ否定 https://t.co/JzQrQRsEIx pic.twitter.com/ASpy19PmJp
— テンペンロイド©沼津系著作権科VTuber (@TempemLoid) November 23, 2023

これも載せておこう
旧47条の4は著作物利用が複製・翻案に限定されているため
データセットを公衆送信してAI事業者同士で共有することができなかったのですが

改正して利用方法を限定せず学習用データを公衆送信出来るようになりましたとさhttps://t.co/3K2VRKeHir pic.twitter.com/RFdpssuAof
— ツバサ天九@AI男の娘生成おじさん (@wing_sky_nine) January 24, 2024

30条の4は非享受目的の前提で、データセットの配布も可能。

これ30条の4中のどこが根拠になるかわかるかな？
データセットの扱いのこと書かれてなさそうですよね。

なんと
「いずれの方法によるかを問わず、利用することができる」
これだけが根拠になる。

改正前の47条の7では「複製できる」
— テンペンロイド©沼津系著作権科VTuber (@TempemLoid) January 24, 2024

https://t.co/Ma37hFItRz

・　プロ声優による高音質のキャラクター演技セリフ発話音声データセット
・　合計449キャラクター、約36万の音声ファイル、合計約581時間、343GBの音声が含まれる
というデータセットが公開されています。

法律的には大変興味深い事例ですね。… pic.twitter.com/kwyCNVAvGl
— 柿沼　太一 (@tka0120) January 24, 2024

もしかしてこれですか？

文化審議会著作権分科会法制度小委員会（第4回）「AI と著作権に関する考え方について（骨子案）」https://t.co/tAWbZIYOOj pic.twitter.com/FCCe6wwHv4
— ツバサ天九@AI男の娘生成おじさん (@wing_sky_nine) December 7, 2023

著作権って、財産権のようなていですが。
本質的には文化の振興が目的で、権利はそのご褒美だと思います。
なので「他人の直作権を勝手に学習させるな」は、制度の目的と根本的に合わないと思いますね。

ちなみに、これは自分の意見ではなく。著作権法にそう書いてます。 https://t.co/aG7DLUIabf
— 佐々木康友🇺🇦デザインとマーケティングの二刀流⚔️ (@Zenigame89) December 8, 2023

サザエさんバス事件は古い上に東京地裁でかつ学説が分かれる判決ですので
ポパイネクタイ事件の方が新しく最高裁判決で拘束力を持つのでこちらの判決の方が正しいと見た方がいいです

ただし、ポパイネクタイ事件の判決文にもこう書かれているのですよね…
— ツバサ天九@AI男の娘生成おじさん (@wing_sky_nine) December 11, 2023

これ、著作権関連で一度でも民事裁判やってみればすぐに経験できるけど、例え自分がデザインしたキャラクターであっても自分に著作権があることを、民法的に事実認定してもらうのは、相当労力がいるんですよね。 https://t.co/WkGc3cM7bA
— Nobuyuki Kobayashi (@nyaa_toraneko) December 20, 2023

画風や構図自体がアイデアであってそれそのものが著作物ではないという考えが浸透してきた気がするけど、写真やイラストの具体的な表現において似ているかどうかの判断をするときに画風や構図を考慮してよいという考えは浸透してない気がする。
— ⚖法律系Vじゃこにゃー(ディレッタント)⚖動画クリエイター (@Jakotsunya) December 10, 2023

アメリカの著作権侵害

❌アメリカは訴訟大国だし非親告罪により大量に著作権侵害者が処罰されている
⭕️著作権侵害罪の立件は稀。

参加資料https://t.co/mSAOkkqbRY

2021年の資料で2017年度以降は36件の刑事事件しか起訴されていない。

まぁ日本も検挙は年百数十件っぽい。意外と少ない。 pic.twitter.com/AH2uCdkLzx
— テンペンロイド©沼津系著作権科VTuber (@TempemLoid) October 21, 2023

❌アメリカは日本より早く著作権侵害を非親告罪化してる
⭕️そもそもアメリカに親告罪制度ない

❌アメリカは全て非親告罪なので些細な著作権侵害も簡単に起訴できる
⭕️「商業的利益又は私的な経済的利得」を目的として侵害する者だけ刑事罰の対象になる。日本の非親告罪の条件に近い
— テンペンロイド©沼津系著作権科VTuber (@TempemLoid) October 21, 2023

著作権法の表現上の本質的特徴とは何か

厳密に言うと、著作権は類似することを理由に権利が及ぶものではなくて、被告が利用している表現中に原告著作物（の創作的表現（表現上の本質的特徴含む））の一部または全部が含まれること（この場合結果として類似して見える）を理由に権利が及ぶにすぎない。このことは著作権法が「著作者は、その著…
— KJ_OKMR (@OKMRKJ) December 22, 2023

VPNで偽装しても開示請求でバレる

侮辱罪のアウト事例集

侮辱罪の事例集からアウト表現を学びましょう。 pic.twitter.com/sGX0NTqmwD
— 鳥居　満 (@mann_co_high) March 18, 2024

この記事が気に入ったらサポートをしてみませんか？