記事一覧
生成画像の類似度を評価する#1
こんにちは!Hi君です。
画像生成AIを触っていると、生成画像の選抜が必要になる時があります。
reference only を使っても、人の望む類似画像が出力されず似ているものだけを選んだり、ピックアップしてLoraに与える事もあると思います。また、寝る前に始めの数枚がうまくいったので、仕掛けて寝て起きたら割とボツが多かったという経験もあるかもしれません。
今回から4回に分けて人に替わって画像
フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ②
こんにちは!Hi君です。
前回は「参考になるリポトジ・記事」に関してご紹介しましたが、今回は「訓練にかかる時間の見積もり」に関してのまとめです。
訓練に掛かる時間の見積もりについてまず最初に、Cool Japan Diffusionの「RTX3090で300時間学習に時間を要した」という情報を元に、RTX4090を使用した場合どの程度時間がかかるか、という点について目処を立てる際に有用な情報です
フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ
こんにちは、Hi君です。
Stable Diffusionに利用するモデルについて、訓練を行う際にどの程度の生成物を出力するにあたり、かかる時間や、どういった計算機リソースを利用する必要があるか、また参考情報が記載されている記事についてまとめてみました。
初めにStable Diffusionの公式モデルは、LAION-5Bデータセットを利用しています。一方、LAION-5Bデータセットは本来研
キャラクターの同一性を保つ形での画像生成について
こんにちは!Hi君です。
以前、「ControlNet v1.1」における表情制御について取り上げました。今回も表情制御をテーマにして、顔に大きなポーズ変化が無い状態での表情制御(感情制御)でのワークフロー例[にこやかな表情 ➔ 悲しげな表情]について、いろいろと試して気づいたことをまとめています。
■今回の調べ方
・下の2種類の画像ケースのように、顔ガイダンス情報が同一の画像・モデル設定を使
video2video関連 動画データに対しての画風変換・生成まとめ
こんにちは、Hi君です。
こちらも少し古い情報にはなりますが、せっかく調べたので記事としてまとめてみました。お付き合いください。
Batch img2imgAUTOMATIC1111/stable-diffusion-webuiの拡張機能の一つであるBatch img2img。こちらは特定のディレクトリ内の画像群を入力し、画像生成を行うことができます。ただ画像群につき1つのpromptやcont
ControlNet v1.1を用いた表情制御について
こんにちは!Hi君です。
AI画像生成において不可欠な技術である「ControlNet」。今回は、その新バージョンである「ControlNet v1.1」について色々と試してみてわかったことをまとめました!
■調べてみてわかったこと
・ControlNet v1.1ではMediaPipeFaceモード、mediapipeを用いた顔認識 + 表情制御用ガイダンス情報を付与しながら画像生成するような
OpenPoseやControlNetのソフトウェアライセンス関連のまとめ
こんにちは!Hi君です。
本日はOpenPose及びControlNetのソフトウェアライセンス関連について、まとめてみました。
はじめに
OpenPoseという著名なポーズ認識用ツールがあることはご存知かと思いますが、CMUのOpenPoseは非商用ライセンスになります。
(商用の場合は約250万円/年のライセンス料が発生します)
参考1:関連Twitter
参考2:マイケル・ジョーダンの
あえて話したい!Stable Diffusion周辺の理論・内部実装。読んでおくべき記事の紹介
こんにちは、Hi君です。ついに梅雨入りし、なんとなく気が滅入る日が多くなりましたね。
そんな今日は、改めてStable Diffusion周辺の理論や内部実装の解説、またその背景にある数理モデル等を読み解くのに必要な記事の紹介をしていきたいと思います。
Stable Diffusionの背景理論についてSD関連参考論文:
最適化対象のモデルは下記2つの論文に書いてあります。損失関数設計 + パ
LLMの実利用をより柔軟に、簡易に行う「LangChain」とは?
こんにちは!Hi君です。
今回の記事ではLangChainと呼ばれるツールについて解説します。
少し長くなりますが、どうぞお付き合いください。
※LLMの概要についてはこちらの記事をぜひ参照して下さい。
▶ChatGPT・Large Language Model(LLM)概要解説【前編】
▶ChatGPT・Large Language Model(LLM)概要解説【後編】
LangChai
使い方は人次第?GLIGENとは
こんにちは、Hi君です。
今回はバウンディングボックスとプロンプトを指定し、指定した領域に対象物を生成するための手法であるGLIGENについてお話ししたいと思います。
GLIGENにはオンラインデモ及びSD拡張パッケージがあります。ただしSD拡張につき、サンプラー設定によっては意図した動作を行えない事もあるようです。一方、Latent Coupleでも指定した領域に指定した対象を画像生成すること
Deforumをさわってみた。
こんにちは、Hi君です。蒸し暑い日が少し多くなりましたね。今にも梅雨がやってきそうな気配を感じ、戦々恐々としています。
今回はアニメーション的な連続的画像生成を行うためのツールキット群であるDeforumについて。SD用の拡張パッケージもあります。
カメラワークを指定して、推移的にtxt2img、img2imgを行う事ができますが、後述するように仕様が少しトリッキーな部分があるので、これ単体で実
ChatGPT・Large Language Model(LLM)概要解説【後編】
こんにちは!Hi君です。
前編では「ChatGPT」について解説しました。後編ではそもそもの技術としてLarge Language Model (LLM) についてまとめてみます。
LLMとは■LLMとは何か
・LLMは、大量のテキストデータを学習して自然言語処理を実現するためのモデル、あるいは技術体系を指します。
▶ChatGPTはLLMを利用したサービスです。
▶LLMには深層学習(D
ChatGPT・Large Language Model(LLM)概要解説【前編】
こんにちは!Hi君です。
いまさらではありますが、今回はChatGPTと呼ばれる対話サービスと、その背景で使われているLarge Language Model (LLM) と呼ばれる技術について、前編(ChatGPT)・後編(LLM)にわけてそれぞれの概要を自分への備忘録的にまとめてみました。
ChatGPTについて■概要
・ChatGPT: https://chat.openai.com/
ポーズ・表情制御に関する手法を調べてみていた
こんにちは!Hi君です!
調べていたのに「古すぎるかな」と投稿を躊躇していたことを公開します。
それは、画像生成におけるポーズや表情制御に関する手法です。
既知という方も、そうでない方も基礎的な情報としてご覧いただけますと幸いです・・・!
memo「表情制御」(facial expression control)というワードは、GAN系でface meshから画像生成するような手法においてキーワ