Hi君

AIを含めたテクノロジーの可能性を検討するHIKE Tech note（仮）です！検…

1 フォロー 13 フォロワー

生成画像の類似度を評価する＃1

こんにちは！Hi君です。画像生成AIを触っていると、生成画像の選抜が必要になる時があります。 reference only を使っても、人の望む類似画像が出力されず似ているものだ…

Hi君

11か月前

フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ②

こんにちは！Hi君です。前回は「参考になるリポトジ・記事」に関してご紹介しましたが、今回は「訓練にかかる時間の見積もり」に関してのまとめです。訓練に掛かる時間…

Hi君

1年前

フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ

こんにちは、Hi君です。 Stable Diffusionに利用するモデルについて、訓練を行う際にどの程度の生成物を出力するにあたり、かかる時間や、どういった計算機リソースを利用…

Hi君

1年前

Mitsua Diffusion Oneの表現能力・モデル概要まとめ

こんにちは、Hi君です。 Mitsua Diffusion Oneと呼ばれるパブリックドメイン/CC0および許諾を得た画像のみを用いてゼロから学習したモデルがあります。今回は、そのモデル…

Hi君

1年前

キャラクターの同一性を保つ形での画像生成について

こんにちは！Hi君です。以前、「ControlNet v1.1」における表情制御について取り上げました。今回も表情制御をテーマにして、顔に大きなポーズ変化が無い状態での表情制御…

Hi君

1年前

video2video関連　動画データに対しての画風変換・生成まとめ

こんにちは、Hi君です。こちらも少し古い情報にはなりますが、せっかく調べたので記事としてまとめてみました。お付き合いください。 Batch img2imgAUTOMATIC1111/stable…

Hi君

1年前

ControlNet v1.1を用いた表情制御について

こんにちは！Hi君です。 AI画像生成において不可欠な技術である「ControlNet」。今回は、その新バージョンである「ControlNet v1.1」について色々と試してみてわかったこと…

Hi君

1年前

OpenPoseやControlNetのソフトウェアライセンス関連のまとめ

こんにちは！Hi君です。本日はOpenPose及びControlNetのソフトウェアライセンス関連について、まとめてみました。はじめに OpenPoseという著名なポーズ認識用ツールがあ…

Hi君

1年前

あえて話したい！Stable Diffusion周辺の理論・内部実装。読んでおくべき記事の紹介

こんにちは、Hi君です。ついに梅雨入りし、なんとなく気が滅入る日が多くなりましたね。そんな今日は、改めてStable Diffusion周辺の理論や内部実装の解説、またその背景…

Hi君

1年前

LLMの実利用をより柔軟に、簡易に行う「LangChain」とは？

こんにちは！Hi君です。今回の記事ではLangChainと呼ばれるツールについて解説します。少し長くなりますが、どうぞお付き合いください。 ※LLMの概要についてはこちらの…

Hi君

1年前

使い方は人次第？GLIGENとは

こんにちは、Hi君です。今回はバウンディングボックスとプロンプトを指定し、指定した領域に対象物を生成するための手法であるGLIGENについてお話ししたいと思います。 G…

Hi君

1年前

Deforumをさわってみた。

こんにちは、Hi君です。蒸し暑い日が少し多くなりましたね。今にも梅雨がやってきそうな気配を感じ、戦々恐々としています。今回はアニメーション的な連続的画像生成を行…

Hi君

1年前

ついに3Dも！3Dシーンを生成するNeRFに関して

こんにちは！Hi君です。今回は3Dに関してです。少し長くなりますがお付き合いください。 3Dシーンを生成するLumaAIやNeRFStudioでは、画像セットから再構築された3次元シ…

Hi君

1年前

ChatGPT・Large Language Model(LLM)概要解説【後編】

こんにちは！Hi君です。前編では「ChatGPT」について解説しました。後編ではそもそもの技術としてLarge Language Model (LLM) についてまとめてみます。 LLMとは■LLMと…

Hi君

1年前

ChatGPT・Large Language Model(LLM)概要解説【前編】

こんにちは！Hi君です。いまさらではありますが、今回はChatGPTと呼ばれる対話サービスと、その背景で使われているLarge Language Model (LLM) と呼ばれる技術について、…

Hi君

1年前

ポーズ・表情制御に関する手法を調べてみていた

こんにちは！Hi君です！調べていたのに「古すぎるかな」と投稿を躊躇していたことを公開します。それは、画像生成におけるポーズや表情制御に関する手法です。既知とい…

Hi君

1年前

Hi君

2023年8月21日 10:02

生成画像の類似度を評価する＃1

こんにちは！Hi君です。
画像生成AIを触っていると、生成画像の選抜が必要になる時があります。
reference only を使っても、人の望む類似画像が出力されず似ているものだけを選んだり、ピックアップしてLoraに与える事もあると思います。また、寝る前に始めの数枚がうまくいったので、仕掛けて寝て起きたら割とボツが多かったという経験もあるかもしれません。

今回から4回に分けて人に替わって画像

もっとみる

Hi君

2023年7月30日 20:00

フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ②

こんにちは！Hi君です。
前回は「参考になるリポトジ・記事」に関してご紹介しましたが、今回は「訓練にかかる時間の見積もり」に関してのまとめです。

訓練に掛かる時間の見積もりについてまず最初に、Cool Japan Diffusionの「RTX3090で300時間学習に時間を要した」という情報を元に、RTX4090を使用した場合どの程度時間がかかるか、という点について目処を立てる際に有用な情報です

もっとみる

Hi君

2023年7月29日 20:00

フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ

こんにちは、Hi君です。
Stable Diffusionに利用するモデルについて、訓練を行う際にどの程度の生成物を出力するにあたり、かかる時間や、どういった計算機リソースを利用する必要があるか、また参考情報が記載されている記事についてまとめてみました。

初めにStable Diffusionの公式モデルは、LAION-5Bデータセットを利用しています。一方、LAION-5Bデータセットは本来研

もっとみる

Hi君

2023年7月7日 19:00

Mitsua Diffusion Oneの表現能力・モデル概要まとめ

こんにちは、Hi君です。
Mitsua Diffusion Oneと呼ばれるパブリックドメイン/CC0および許諾を得た画像のみを用いてゼロから学習したモデルがあります。今回は、そのモデルの描画能力等について調査を行った結果をまとめてみました。
モデルの詳細は次のページを参照して下さい：

結論としては、主に以下の3点から、「即戦力的なモデルではない」ということです。当然のことではありますが、実際使

もっとみる

Hi君

2023年6月30日 19:21

キャラクターの同一性を保つ形での画像生成について

こんにちは！Hi君です。
以前、「ControlNet v1.1」における表情制御について取り上げました。今回も表情制御をテーマにして、顔に大きなポーズ変化が無い状態での表情制御(感情制御)でのワークフロー例[にこやかな表情 ➔ 悲しげな表情]について、いろいろと試して気づいたことをまとめています。

■今回の調べ方

・下の2種類の画像ケースのように、顔ガイダンス情報が同一の画像・モデル設定を使

もっとみる

Hi君

2023年6月16日 19:00

video2video関連　動画データに対しての画風変換・生成まとめ

こんにちは、Hi君です。
こちらも少し古い情報にはなりますが、せっかく調べたので記事としてまとめてみました。お付き合いください。

Batch img2imgAUTOMATIC1111/stable-diffusion-webuiの拡張機能の一つであるBatch img2img。こちらは特定のディレクトリ内の画像群を入力し、画像生成を行うことができます。ただ画像群につき1つのpromptやcont

もっとみる

Hi君

2023年6月11日 19:30

ControlNet v1.1を用いた表情制御について

こんにちは！Hi君です。
AI画像生成において不可欠な技術である「ControlNet」。今回は、その新バージョンである「ControlNet v1.1」について色々と試してみてわかったことをまとめました！

■調べてみてわかったこと
・ControlNet v1.1ではMediaPipeFaceモード、mediapipeを用いた顔認識 + 表情制御用ガイダンス情報を付与しながら画像生成するような

もっとみる

Hi君

2023年6月11日 19:00

OpenPoseやControlNetのソフトウェアライセンス関連のまとめ

こんにちは！Hi君です。
本日はOpenPose及びControlNetのソフトウェアライセンス関連について、まとめてみました。

はじめに
OpenPoseという著名なポーズ認識用ツールがあることはご存知かと思いますが、CMUのOpenPoseは非商用ライセンスになります。
（商用の場合は約250万円/年のライセンス料が発生します）

参考1：関連Twitter

参考2：マイケル・ジョーダンの

もっとみる

Hi君

2023年6月4日 19:00

あえて話したい！Stable Diffusion周辺の理論・内部実装。読んでおくべき記事の紹介

こんにちは、Hi君です。ついに梅雨入りし、なんとなく気が滅入る日が多くなりましたね。
そんな今日は、改めてStable Diffusion周辺の理論や内部実装の解説、またその背景にある数理モデル等を読み解くのに必要な記事の紹介をしていきたいと思います。

Stable Diffusionの背景理論についてSD関連参考論文：

最適化対象のモデルは下記2つの論文に書いてあります。損失関数設計 + パ

もっとみる

Hi君

2023年6月2日 20:34

LLMの実利用をより柔軟に、簡易に行う「LangChain」とは？

こんにちは！Hi君です。
今回の記事ではLangChainと呼ばれるツールについて解説します。
少し長くなりますが、どうぞお付き合いください。

※LLMの概要についてはこちらの記事をぜひ参照して下さい。
　▶ChatGPT・Large Language Model(LLM)概要解説【前編】
　▶ChatGPT・Large Language Model(LLM)概要解説【後編】

LangChai

もっとみる

Hi君

2023年5月29日 19:00

使い方は人次第？GLIGENとは

こんにちは、Hi君です。
今回はバウンディングボックスとプロンプトを指定し、指定した領域に対象物を生成するための手法であるGLIGENについてお話ししたいと思います。

GLIGENにはオンラインデモ及びSD拡張パッケージがあります。ただしSD拡張につき、サンプラー設定によっては意図した動作を行えない事もあるようです。一方、Latent Coupleでも指定した領域に指定した対象を画像生成すること

もっとみる

Hi君

2023年5月29日 18:00

Deforumをさわってみた。

こんにちは、Hi君です。蒸し暑い日が少し多くなりましたね。今にも梅雨がやってきそうな気配を感じ、戦々恐々としています。

今回はアニメーション的な連続的画像生成を行うためのツールキット群であるDeforumについて。SD用の拡張パッケージもあります。
カメラワークを指定して、推移的にtxt2img、img2imgを行う事ができますが、後述するように仕様が少しトリッキーな部分があるので、これ単体で実

もっとみる

Hi君

2023年5月27日 12:30

ついに3Dも！3Dシーンを生成するNeRFに関して

こんにちは！Hi君です。
今回は3Dに関してです。少し長くなりますがお付き合いください。

3Dシーンを生成するLumaAIやNeRFStudioでは、画像セットから再構築された3次元シーン情報について、カメラワークを指定して画像や動画を生成することが出来ます。
こちらのTwitterにもあるように、スムーズな3D映像が簡単に生成できるので、もしかしたらアニメの背景作成補助等にも使えるかもしれませ

もっとみる

Hi君

2023年5月26日 23:00

ChatGPT・Large Language Model(LLM)概要解説【後編】

こんにちは！Hi君です。
前編では「ChatGPT」について解説しました。後編ではそもそもの技術としてLarge Language Model (LLM) についてまとめてみます。

LLMとは■LLMとは何か

・LLMは、大量のテキストデータを学習して自然言語処理を実現するためのモデル、あるいは技術体系を指します。
　▶ChatGPTはLLMを利用したサービスです。
　▶LLMには深層学習(D

もっとみる

Hi君

2023年5月26日 22:40

ChatGPT・Large Language Model(LLM)概要解説【前編】

こんにちは！Hi君です。
いまさらではありますが、今回はChatGPTと呼ばれる対話サービスと、その背景で使われているLarge Language Model (LLM) と呼ばれる技術について、前編（ChatGPT）・後編（LLM）にわけてそれぞれの概要を自分への備忘録的にまとめてみました。

ChatGPTについて■概要

・ChatGPT: https://chat.openai.com/

もっとみる

Hi君

2023年5月23日 17:56

ポーズ・表情制御に関する手法を調べてみていた

こんにちは！Hi君です！
調べていたのに「古すぎるかな」と投稿を躊躇していたことを公開します。
それは、画像生成におけるポーズや表情制御に関する手法です。
既知という方も、そうでない方も基礎的な情報としてご覧いただけますと幸いです・・・！

memo「表情制御」（facial expression control）というワードは、GAN系でface meshから画像生成するような手法においてキーワ

もっとみる

記事一覧

生成画像の類似度を評価する＃1

フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ②

フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ

Mitsua Diffusion Oneの表現能力・モデル概要まとめ

キャラクターの同一性を保つ形での画像生成について

video2video関連 動画データに対しての画風変換・生成まとめ

ControlNet v1.1を用いた表情制御について

OpenPoseやControlNetのソフトウェアライセンス関連のまとめ

あえて話したい！Stable Diffusion周辺の理論・内部実装。読んでおくべき記事の紹介

LLMの実利用をより柔軟に、簡易に行う「LangChain」とは？

使い方は人次第？GLIGENとは

Deforumをさわってみた。

ついに3Dも！3Dシーンを生成するNeRFに関して

ChatGPT・Large Language Model(LLM)概要解説【後編】

ChatGPT・Large Language Model(LLM)概要解説【前編】

ポーズ・表情制御に関する手法を調べてみていた

video2video関連　動画データに対しての画風変換・生成まとめ