Hi君

AIを含めたテクノロジーの可能性を検討するHIKE Tech note(仮)です! 検…

Hi君

AIを含めたテクノロジーの可能性を検討するHIKE Tech note(仮)です! 検討する中で得られた知見と技術を正しく見定めながら、興味がある方たちと相互に情報共有しつつ、共にR&Dしていきたいです!

記事一覧

生成画像の類似度を評価する#1

こんにちは!Hi君です。 画像生成AIを触っていると、生成画像の選抜が必要になる時があります。 reference only を使っても、人の望む類似画像が出力されず似ているものだ…

Hi君
10か月前
5

フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ②

こんにちは!Hi君です。 前回は「参考になるリポトジ・記事」に関してご紹介しましたが、今回は「訓練にかかる時間の見積もり」に関してのまとめです。 訓練に掛かる時間…

Hi君
10か月前
8

フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ

こんにちは、Hi君です。 Stable Diffusionに利用するモデルについて、訓練を行う際にどの程度の生成物を出力するにあたり、かかる時間や、どういった計算機リソースを利用…

Hi君
10か月前
6

Mitsua Diffusion Oneの表現能力・モデル概要まとめ

こんにちは、Hi君です。 Mitsua Diffusion Oneと呼ばれるパブリックドメイン/CC0および許諾を得た画像のみを用いてゼロから学習したモデルがあります。今回は、そのモデル…

Hi君
11か月前
5

キャラクターの同一性を保つ形での画像生成について

こんにちは!Hi君です。 以前、「ControlNet v1.1」における表情制御について取り上げました。今回も表情制御をテーマにして、顔に大きなポーズ変化が無い状態での表情制御…

Hi君
11か月前
8

video2video関連 動画データに対しての画風変換・生成まとめ

こんにちは、Hi君です。 こちらも少し古い情報にはなりますが、せっかく調べたので記事としてまとめてみました。お付き合いください。 Batch img2imgAUTOMATIC1111/stable…

Hi君
1年前
4

ControlNet v1.1を用いた表情制御について

こんにちは!Hi君です。 AI画像生成において不可欠な技術である「ControlNet」。今回は、その新バージョンである「ControlNet v1.1」について色々と試してみてわかったこと…

Hi君
1年前
10

OpenPoseやControlNetのソフトウェアライセンス関連のまとめ

こんにちは!Hi君です。 本日はOpenPose及びControlNetのソフトウェアライセンス関連について、まとめてみました。 はじめに OpenPoseという著名なポーズ認識用ツールがあ…

Hi君
1年前
17

あえて話したい!Stable Diffusion周辺の理論・内部実装。読んでおくべき記事の紹介

こんにちは、Hi君です。ついに梅雨入りし、なんとなく気が滅入る日が多くなりましたね。 そんな今日は、改めてStable Diffusion周辺の理論や内部実装の解説、またその背景…

Hi君
1年前
10

LLMの実利用をより柔軟に、簡易に行う「LangChain」とは?

こんにちは!Hi君です。 今回の記事ではLangChainと呼ばれるツールについて解説します。 少し長くなりますが、どうぞお付き合いください。 ※LLMの概要についてはこちらの…

Hi君
1年前
7

使い方は人次第?GLIGENとは

こんにちは、Hi君です。 今回はバウンディングボックスとプロンプトを指定し、指定した領域に対象物を生成するための手法であるGLIGENについてお話ししたいと思います。 G…

Hi君
1年前
8

Deforumをさわってみた。

こんにちは、Hi君です。蒸し暑い日が少し多くなりましたね。今にも梅雨がやってきそうな気配を感じ、戦々恐々としています。 今回はアニメーション的な連続的画像生成を行…

Hi君
1年前
8

ついに3Dも!3Dシーンを生成するNeRFに関して

こんにちは!Hi君です。 今回は3Dに関してです。少し長くなりますがお付き合いください。 3Dシーンを生成するLumaAIやNeRFStudioでは、画像セットから再構築された3次元シ…

Hi君
1年前
11

ChatGPT・Large Language Model(LLM)概要解説【後編】

こんにちは!Hi君です。 前編では「ChatGPT」について解説しました。後編ではそもそもの技術としてLarge Language Model (LLM) についてまとめてみます。 LLMとは■LLMと…

Hi君
1年前
10

ChatGPT・Large Language Model(LLM)概要解説【前編】

こんにちは!Hi君です。 いまさらではありますが、今回はChatGPTと呼ばれる対話サービスと、その背景で使われているLarge Language Model (LLM) と呼ばれる技術について、…

Hi君
1年前
10

ポーズ・表情制御に関する手法を調べてみていた

こんにちは!Hi君です! 調べていたのに「古すぎるかな」と投稿を躊躇していたことを公開します。 それは、画像生成におけるポーズや表情制御に関する手法です。 既知とい…

Hi君
1年前
15
生成画像の類似度を評価する#1

生成画像の類似度を評価する#1

こんにちは!Hi君です。
画像生成AIを触っていると、生成画像の選抜が必要になる時があります。
reference only を使っても、人の望む類似画像が出力されず似ているものだけを選んだり、ピックアップしてLoraに与える事もあると思います。また、寝る前に始めの数枚がうまくいったので、仕掛けて寝て起きたら割とボツが多かったという経験もあるかもしれません。

今回から4回に分けて人に替わって画像

もっとみる
フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ②

フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ②

こんにちは!Hi君です。
前回は「参考になるリポトジ・記事」に関してご紹介しましたが、今回は「訓練にかかる時間の見積もり」に関してのまとめです。

訓練に掛かる時間の見積もりについてまず最初に、Cool Japan Diffusionの「RTX3090で300時間学習に時間を要した」という情報を元に、RTX4090を使用した場合どの程度時間がかかるか、という点について目処を立てる際に有用な情報です

もっとみる
フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ

フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ

こんにちは、Hi君です。
Stable Diffusionに利用するモデルについて、訓練を行う際にどの程度の生成物を出力するにあたり、かかる時間や、どういった計算機リソースを利用する必要があるか、また参考情報が記載されている記事についてまとめてみました。

初めにStable Diffusionの公式モデルは、LAION-5Bデータセットを利用しています。一方、LAION-5Bデータセットは本来研

もっとみる
Mitsua Diffusion Oneの表現能力・モデル概要まとめ

Mitsua Diffusion Oneの表現能力・モデル概要まとめ

こんにちは、Hi君です。
Mitsua Diffusion Oneと呼ばれるパブリックドメイン/CC0および許諾を得た画像のみを用いてゼロから学習したモデルがあります。今回は、そのモデルの描画能力等について調査を行った結果をまとめてみました。
モデルの詳細は次のページを参照して下さい:

結論としては、主に以下の3点から、「即戦力的なモデルではない」ということです。当然のことではありますが、実際使

もっとみる
キャラクターの同一性を保つ形での画像生成について

キャラクターの同一性を保つ形での画像生成について

こんにちは!Hi君です。
以前、「ControlNet v1.1」における表情制御について取り上げました。今回も表情制御をテーマにして、顔に大きなポーズ変化が無い状態での表情制御(感情制御)でのワークフロー例[にこやかな表情 ➔ 悲しげな表情]について、いろいろと試して気づいたことをまとめています。

■今回の調べ方

・下の2種類の画像ケースのように、顔ガイダンス情報が同一の画像・モデル設定を使

もっとみる
video2video関連 動画データに対しての画風変換・生成まとめ

video2video関連 動画データに対しての画風変換・生成まとめ

こんにちは、Hi君です。
こちらも少し古い情報にはなりますが、せっかく調べたので記事としてまとめてみました。お付き合いください。

Batch img2imgAUTOMATIC1111/stable-diffusion-webuiの拡張機能の一つであるBatch img2img。こちらは特定のディレクトリ内の画像群を入力し、画像生成を行うことができます。ただ画像群につき1つのpromptやcont

もっとみる
ControlNet v1.1を用いた表情制御について

ControlNet v1.1を用いた表情制御について

こんにちは!Hi君です。
AI画像生成において不可欠な技術である「ControlNet」。今回は、その新バージョンである「ControlNet v1.1」について色々と試してみてわかったことをまとめました!

■調べてみてわかったこと
・ControlNet v1.1ではMediaPipeFaceモード、mediapipeを用いた顔認識 + 表情制御用ガイダンス情報を付与しながら画像生成するような

もっとみる
OpenPoseやControlNetのソフトウェアライセンス関連のまとめ

OpenPoseやControlNetのソフトウェアライセンス関連のまとめ

こんにちは!Hi君です。
本日はOpenPose及びControlNetのソフトウェアライセンス関連について、まとめてみました。

はじめに
OpenPoseという著名なポーズ認識用ツールがあることはご存知かと思いますが、CMUのOpenPoseは非商用ライセンスになります。
(商用の場合は約250万円/年のライセンス料が発生します)

参考1:関連Twitter

参考2:マイケル・ジョーダンの

もっとみる
あえて話したい!Stable Diffusion周辺の理論・内部実装。読んでおくべき記事の紹介

あえて話したい!Stable Diffusion周辺の理論・内部実装。読んでおくべき記事の紹介

こんにちは、Hi君です。ついに梅雨入りし、なんとなく気が滅入る日が多くなりましたね。
そんな今日は、改めてStable Diffusion周辺の理論や内部実装の解説、またその背景にある数理モデル等を読み解くのに必要な記事の紹介をしていきたいと思います。

Stable Diffusionの背景理論についてSD関連参考論文:

最適化対象のモデルは下記2つの論文に書いてあります。損失関数設計 + パ

もっとみる
LLMの実利用をより柔軟に、簡易に行う「LangChain」とは?

LLMの実利用をより柔軟に、簡易に行う「LangChain」とは?

こんにちは!Hi君です。
今回の記事ではLangChainと呼ばれるツールについて解説します。
少し長くなりますが、どうぞお付き合いください。

※LLMの概要についてはこちらの記事をぜひ参照して下さい。
 ▶ChatGPT・Large Language Model(LLM)概要解説【前編】
 ▶ChatGPT・Large Language Model(LLM)概要解説【後編】

LangChai

もっとみる
使い方は人次第?GLIGENとは

使い方は人次第?GLIGENとは

こんにちは、Hi君です。
今回はバウンディングボックスとプロンプトを指定し、指定した領域に対象物を生成するための手法であるGLIGENについてお話ししたいと思います。

GLIGENにはオンラインデモ及びSD拡張パッケージがあります。ただしSD拡張につき、サンプラー設定によっては意図した動作を行えない事もあるようです。一方、Latent Coupleでも指定した領域に指定した対象を画像生成すること

もっとみる
Deforumをさわってみた。

Deforumをさわってみた。

こんにちは、Hi君です。蒸し暑い日が少し多くなりましたね。今にも梅雨がやってきそうな気配を感じ、戦々恐々としています。

今回はアニメーション的な連続的画像生成を行うためのツールキット群であるDeforumについて。SD用の拡張パッケージもあります。
カメラワークを指定して、推移的にtxt2img、img2imgを行う事ができますが、後述するように仕様が少しトリッキーな部分があるので、これ単体で実

もっとみる
ついに3Dも!3Dシーンを生成するNeRFに関して

ついに3Dも!3Dシーンを生成するNeRFに関して

こんにちは!Hi君です。
今回は3Dに関してです。少し長くなりますがお付き合いください。

3Dシーンを生成するLumaAIやNeRFStudioでは、画像セットから再構築された3次元シーン情報について、カメラワークを指定して画像や動画を生成することが出来ます。
こちらのTwitterにもあるように、スムーズな3D映像が簡単に生成できるので、もしかしたらアニメの背景作成補助等にも使えるかもしれませ

もっとみる
ChatGPT・Large Language Model(LLM)概要解説【後編】

ChatGPT・Large Language Model(LLM)概要解説【後編】

こんにちは!Hi君です。
前編では「ChatGPT」について解説しました。後編ではそもそもの技術としてLarge Language Model (LLM) についてまとめてみます。

LLMとは■LLMとは何か

・LLMは、大量のテキストデータを学習して自然言語処理を実現するためのモデル、あるいは技術体系を指します。
 ▶ChatGPTはLLMを利用したサービスです。
 ▶LLMには深層学習(D

もっとみる
ChatGPT・Large Language Model(LLM)概要解説【前編】

ChatGPT・Large Language Model(LLM)概要解説【前編】

こんにちは!Hi君です。
いまさらではありますが、今回はChatGPTと呼ばれる対話サービスと、その背景で使われているLarge Language Model (LLM) と呼ばれる技術について、前編(ChatGPT)・後編(LLM)にわけてそれぞれの概要を自分への備忘録的にまとめてみました。

ChatGPTについて■概要

・ChatGPT: https://chat.openai.com/

もっとみる
ポーズ・表情制御に関する手法を調べてみていた

ポーズ・表情制御に関する手法を調べてみていた

こんにちは!Hi君です!
調べていたのに「古すぎるかな」と投稿を躊躇していたことを公開します。
それは、画像生成におけるポーズや表情制御に関する手法です。
既知という方も、そうでない方も基礎的な情報としてご覧いただけますと幸いです・・・!

memo「表情制御」(facial expression control)というワードは、GAN系でface meshから画像生成するような手法においてキーワ

もっとみる