Kohya S.

小説を書いたり機械学習で遊んだり電子工作をしたりしています。

DreamBooth、fine tuningなど

Kohya S.

9本

自作スクリプト関連の記事をまとめました。

ローカルLLMに小説を書いてもらう v2.1

はじめに以下の記事のマイナーチェンジ版です。生成スクリプト最新の生成スクリプトとプロンプト定義はgistを更新してあります。 https://gist.github.com/kohya-ss/68d41a9720bfbdfd87869ec970142f4b 見えてきた課題と対策v2のスクリプトでいくつか小説生成を試みる中で、課題も見えてきました。生成単位は小さめに v2では、ひとつの章を複数のシーンに分割し、章ごとに生成していましたが、一度の生成で場面転換

ローカルLLMに小説を書いてもらう v2

はじめに以前、「ローカルLLMに小説を書いてもらう」という記事を投稿しました。この時はそれぞれ単独のプロンプトで小説家と編集者を演じさせましたが、今回はもうすこしシステマチックに、段階を踏んで小説を生成させてみます。プロンプトの検討等にはkgmkm氏のリポジトリや記事を参考にさせていただきました。この場を借りてお礼申し上げます。仕組みを相談するのにClaude (3.5 Sonnet)とやり取りをしていましたので、この記事の草稿も書いてもらいました。所々、なんと

Kohya S.

2か月前

64
5択問題（自作）をLLMに解かせるのをやってみる(v1.0)

はじめにgcem156氏の以下の記事に触発されたものです。推論方法など大いに参考にさせていただきました。ありがとうございました。個人的趣味に基づいて100問の5択問題を作り、解かせてみます。結果です。ちょっと問題の質に問題があるようなので、将来的に改善してやり直すかもしれません……。ルールgcem156氏の記事に準じます。今回はAPIは使わずローカルでのみ試しました。システムプロンプトはなし、文章を入力して、予測確率が一番高いトークンを答えとします（なお

Kohya S.

3か月前

11
ローカルLLMに小説を書いてもらう

はじめにn番煎じですが何かの参考になれば幸いです。「君に綴る手紙」～ Command R+に小説家と編集者を両方やってもらったCommand R+のGGUF、Q4_K_Mを用います。laksjdjf氏のchatuiにモデル同士で対話させるsimulate機能がありますので、UIはそちらを利用しました（モデル状態を保存して高速化するため一部変更して利用しています）。チャットのuserとassistantを入れ替えつつ、両方ともモデルに生成させる機能です。小説を出力するた

Kohya S.

4か月前

39

ローカルLLMに小説を書いてもらう v2.1

Kohya S.

1か月前

ローカルLLMに小説を書いてもらう v2

64

Kohya S.

2か月前
5択問題（自作）をLLMに解かせるのをやってみる(v1.0)

11

Kohya S.

3か月前
ローカルLLMに小説を書いてもらう

39

Kohya S.

4か月前

マガジン

DreamBooth、fine tuningなど

9本

記事

自作小説をLLMにレビューさせてみる（ローカル4モデル、サービス型4モデル）

24-5-14: ChatGPT 4o追加 24-4-29: Qwen1.5-110B-Chat-gguf Q4-K-M 追加（結果のみ） 24-4-18: Command-R+ (cohere playground) 追加（結果のみ）簡単なまとめ見返したらあまりにも長くて読みづらかったので、Opusの力も借りて、要約を追記しておきます。【ローカルLLM】 LightChatAssistant-4x7B-f16.gguf: 非常に流暢な日本語で応答するものの、

Kohya S.

5か月前

126
自作小説をLLMにレビューさせてみる（ローカル4モデル、サービス型4モデル）

126

Kohya S.

5か月前
SDXLでコピー機学習法を試す

はじめにコピー機学習法は、LoRAを教師画像と同様の画像しか出力されないレベルまで過学習し（コピー機と呼ばれる理由です）、そこから目的のLoRAを取り出す手法です。詳細は以下の月須和・那々氏の記事をご覧ください。今回、SDXLでコピー機学習法を試してみました。品質的にはいまひとつですが、一応成功はしましたので、設定等を共有します。学習にはsd-scriptsを利用しています。教師データとりにく氏の画像を利用させていただきます。今回は開き目（通常の状態）1枚、

Kohya S.

1年前

114
SDXLでコピー機学習法を試す

114

Kohya S.

1年前
sd-scriptsで任意の画像とキャプションで学習する

はじめにsd-scriptsのリポジトリでは画像ファイルとキャプションファイルを指定してStable DiffusionやLoRA等を学習できますが、場合によってはより柔軟な学習をしたいこともあるかと思います。たとえば画像を動的に生成したい、augmentationを自由に行いたい、画像やキャプションをステップに応じて変化させたい、などです。この記事ではそのような場合に、任意のDatasetを定義して学習する方法について記述します。 Datasetクラスの作成クラスの定義

Kohya S.

1年前

22
sd-scriptsで任意の画像とキャプションで学習する

22

Kohya S.

1年前
LoRA学習用サンプルデータ

LoRAの環境整備がうまく行っているか、学習を試すためのサンプルデータです。サンプルデータ作業ディレクトリを作成し、以下のzipを展開してください。学習の手順展開したディレクトリにmodel.ckptという名前で、学習対象のモデルをコピーします。（シンボリックリンクでも構いません。）（コピーしない場合は、以降のコマンド内の ..\model.ckpt をモデルファイルの所在で書き換えてください。.safetensorsも指定できます。）そのディレクトリ内で h

Kohya S.

1年前

44
LoRA学習用サンプルデータ

44

Kohya S.

1年前
Stable DiffusionのU-Netでブロックごとに異なるプロンプトを与えて画像生成する（ブロック別プロンプト）

はじめに※1/10追記：コメントでご指摘いただきましたが、キャプションが有効（CrossAttentionが存在する）なのはblock 1, 2, 4, 5, 7, 8, 12, 16 ~ 24です。他のblockのキャプションは無視されます。確認が足らず失礼いたしました。ご指摘いただいたgcem156氏に感謝します。 U-Netの構造については以前の記事に書きました。 U-NetはText Encoderからの出力を受け取り、それに沿うように（プロンプトを再現するよう

Kohya S.

1年前

32
Stable DiffusionのU-Netでブロックごとに異なるプロンプトを与えて画像生成する（ブロック別プロンプト）

32

Kohya S.

1年前
DiffusersベースのDreamBoothについて

はじめにStable DiffusionのDreamBoothについて、以前の記事では記事にスクリプトを添付していましたが、新たにgithubのリポジトリを作成しました。そちらを用いた学習について解説する記事です。リポジトリはこちらです。スクリプトの主な機能は以下の通りです。 8bit Adam optimizerおよびlatentのキャッシュによる省メモリ化（ShivamShrirao氏版と同様）。 xformersによる省メモリ化。 512*512だけではな

Kohya S.

1年前

37
DiffusersベースのDreamBoothについて

37

Kohya S.

1年前
Stable Diffusion checkpointとDiffusersモデルの相互変換スクリプト（SD2.0対応）

はじめにStable Diffusion checkpointとDiffusersモデルの変換スクリプトは、Diffusers公式からStable Diffusion v1.xのものは提供されていますが、2.0対応のものは12/3時点でリリースされていません。拙作のDreamBooth学習スクリプトでモデル自体の変換はすでに実装済みですので、それにコードを追加して、相互に変換を行うスクリプトを作成しました。せっかくですのでv1.xとv2.0の双方に対応してあります。スク

Kohya S.

1年前

50
Stable Diffusion checkpointとDiffusersモデルの相互変換スクリプト（SD2.0対応）

50

Kohya S.

1年前
Stable Diffusion画像生成スクリプト（Diffusersベース、SD2.0、一括生成対応）

はじめに多くの方はWeb UI他の画像生成環境をお使いかと思いますが、コマンドラインからの生成にも、もしかしたら需要があるかもしれませんので公開します。 Pythonで仮想環境を構築できるくらいの方を対象にしています。また細かいところは省略していますのでご容赦ください。 ※12/16 (v9)：img2img等でフォルダ指定したときファイル名をソートして処理するよう変更しました。目次から「スクリプト」に飛んでください。 ※使用に当たっては自己責任でお願いいたします。概

Kohya S.

1年前

64
Stable Diffusion画像生成スクリプト（Diffusersベース、SD2.0、一括生成対応）

64

Kohya S.

1年前
DiffusersベースでStable Diffusionをfine tuningする

NovelAIの提案した学習手法、自動キャプションニング、タグ付け、Windows＋VRAM 12GB（v1.4/1.5の場合）環境等に対応したfine tuningです。 ※12/17：v9に更新しました。「Diffusersの環境構築とスクリプトの準備」に飛んでください。はじめに先日、DiffusersベースでDreamBoothを行う記事を書きましたが、U-Netの学習の仕組みを使うことでStable Diffusionのfine tuningが可能です。この記事

Kohya S.

1年前

80
DiffusersベースでStable Diffusionをfine tuningする

80

Kohya S.

1年前
DreamBoothスクリプトのfine-tuning機能について

※fine tuning専用のスクリプトを作成しましたので、通常はそちらをご利用いただければ幸いです。はじめに前回の記事の続きです。スクリプトのfine-tuning機能の解説です。概要DreamBoothはモデルのU-NetとText Encoderを学習しています。ですので、画像とプロンプト（キャプション）の取り扱いを変えるだけでそれらのfine-tuningが可能です。教師データの準備画像ファイルと、その画像のプロンプトが1行で記述されたテキストファイル

Kohya S.

1年前

29
DreamBoothスクリプトのfine-tuning機能について

29

Kohya S.

1年前
StableDiffusionのcheckpointに任意のVAEをマージする

概要Stable Diffusionのモデルは大きくVAE（Auto-Encoder）、Text Encoder、U-Netからなりますが、VAEは画像と潜在空間の変換を行っています。VAEを入れ替えることで出力される画像が変化し、たとえば特定のジャンル（アニメ絵など）がより高精細に出力される、といったことが期待できます。そこでcheckpointのVAEだけを入れ替えて新しいcheckpointを作るスクリプトを作成しました。生成環境によっては生成時に任意にVAEを

Kohya S.

1年前

26
StableDiffusionのcheckpointに任意のVAEをマージする

26

Kohya S.

1年前
8-bit optimizer（bitsandbytes）をWindows（非WSL）で動かす

概要学習の省メモリ化に有効なbitsandbytesの8-bit optimizerですが、Windows用のDLLが提供されていないためそのままでは動きません。以前の記事に8-bit optimizerをWindows（非WSL）で動かす方法について書きましたが、わかりやすいように記事として独立させました。手順仮想環境等を適宜設定しておいてください。 bitsandbytesのインストール pipでインストールします。Windows対応のための変更スクリプトが0

Kohya S.

1年前

15
8-bit optimizer（bitsandbytes）をWindows（非WSL）で動かす

15

Kohya S.

1年前

マガジン

DreamBooth、fine tuningなど

最近の記事

ローカルLLMに小説を書いてもらう v2.1

ローカルLLMに小説を書いてもらう v2

5択問題（自作）をLLMに解かせるのをやってみる(v1.0)

ローカルLLMに小説を書いてもらう

ローカルLLMに小説を書いてもらう v2.1

ローカルLLMに小説を書いてもらう v2

5択問題（自作）をLLMに解かせるのをやってみる(v1.0)

ローカルLLMに小説を書いてもらう

自作小説をLLMにレビューさせてみる（ローカル4モデル、サービス型4モデル）

自作小説をLLMにレビューさせてみる（ローカル4モデル、サービス型4モデル）

SDXLでコピー機学習法を試す

SDXLでコピー機学習法を試す

sd-scriptsで任意の画像とキャプションで学習する

sd-scriptsで任意の画像とキャプションで学習する

LoRA学習用サンプルデータ

LoRA学習用サンプルデータ

Stable DiffusionのU-Netでブロックごとに異なるプロンプトを与えて画像生成する（ブロック別プロンプト）

Stable DiffusionのU-Netでブロックごとに異なるプロンプトを与えて画像生成する（ブロック別プロンプト）

DiffusersベースのDreamBoothについて

DiffusersベースのDreamBoothについて

Stable Diffusion checkpointとDiffusersモデルの相互変換スクリプト（SD2.0対応）

Stable Diffusion checkpointとDiffusersモデルの相互変換スクリプト（SD2.0対応）

Stable Diffusion画像生成スクリプト（Diffusersベース、SD2.0、一括生成対応）

Stable Diffusion画像生成スクリプト（Diffusersベース、SD2.0、一括生成対応）

DiffusersベースでStable Diffusionをfine tuningする

DiffusersベースでStable Diffusionをfine tuningする

DreamBoothスクリプトのfine-tuning機能について

DreamBoothスクリプトのfine-tuning機能について

StableDiffusionのcheckpointに任意のVAEをマージする

StableDiffusionのcheckpointに任意のVAEをマージする

8-bit optimizer（bitsandbytes）をWindows（非WSL）で動かす

8-bit optimizer（bitsandbytes）をWindows（非WSL）で動かす