Yasu Shiina

画像生成・画像認識AIを中心に投稿する予定です。 Ubuntu、RTX A6000を使…

【FLUX.1】LoRAのトレーニング時間を比較（意外な結果）

以前の記事でFLUX.1を使ったLoRAのトレーニングを説明しました。今回もai-toolkitを使って実験をします。実験内容 512x512(pixel)の画像を5枚、10枚、15枚用意し、トレーニングをします。トレーンイグ用画像はComfyUI（FLUX.1-dev）で作成しました。キャプションは「Add AI captions with Florence-2」の結果をそのまま使用しました。 Advanced optionsはデフォルト通りです。・Steps :

【ComfyUI】iPhoneのカメラを使ったリアルタイム画像変換

前回に続き、ComfyUIを利用し画像生成を行います。今回はリアルタイムでの画像変換についてご紹介します。利用するComfyUIのカスタムノードは「ComfyUI_toyxyz_test_nodes」になります。残念ながらUbuntuですと、一部機能が使えません。（今回のご紹介する機能は使えます） ComfyUI_toyxyz_test_nodesとは Image To Imageで画像変更をしたい場合、Load Imageのノードを利用し、PCに保存された画像を取り込み

Yasu Shiina

3週間前

3
複雑な画像生成はComfyUIが便利

前回の記事にてComfyUIを使って画像生成を説明しました。一見使いづらそうですが、ComfyUIの便利な機能を説明します。 SDWebUIとComfyUIの比較 Stable Diffusionで単純な画像生成をする場合、Stable Diffusion WebUI（以後、SDWebUI）が一般的であり、ユーザビリティが高いと言えます。Text To ImageやImage To Imageもタブ切り替えで利用できます。例えば、赤リンゴの画像を同じ構図の緑リンゴの画像

Yasu Shiina

3週間前

6
【FLUX.1】LoRAのトレーニングをやってみた

前回の記事でFLUX.1が高精度の画像生成ができることを説明しました。 Stable Diffusionでもそうですが、画像生成のモデルをカスタマイズしたくなります。モデル全体にカスタマイズをするファインチューニングは技術的にハードルが高いため、容易にはできません。そこで使われる技術としてLoRAがあります。 LoRAとは LoTA（Low-Rank Adaptation）とは、少ない画像をトレーニングをし、その特徴を画像生成に活かすことができる便利な技術です。元のモデル（

Yasu Shiina

4週間前

11

【FLUX.1】LoRAのトレーニング時間を比較（意外な結果）

Yasu Shiina

6日前

【ComfyUI】iPhoneのカメラを使ったリアルタイム画像変換

3

Yasu Shiina

3週間前
複雑な画像生成はComfyUIが便利

6

Yasu Shiina

3週間前
【FLUX.1】LoRAのトレーニングをやってみた

11

Yasu Shiina

4週間前

ComfyUIで画像生成を比較（Stable Diffusion 1.5 vs Flux.1）

ComfyUIとは Stable Diffusionを起動するUIとして、Automatic1111以外に似たようなUIのForgeや、ComfyUIがあります。 ComfyUIについては（使い始めたばかりのため機能比較のレビューはできませんが）、入力から出力までフローベースで組み立てられるのが特徴です。 ComfyUIの活用事例テレビ東京「Newsモーニングサテライト」にて、中国のオンラインゲーム会社がキャラクターデザインをAIで制作していました。作成風景からComfy

Yasu Shiina

1か月前

3
ComfyUIで画像生成を比較（Stable Diffusion 1.5 vs Flux.1）

3

Yasu Shiina

1か月前
MidjourneyのWeb版を使ってみた

Discord上でしか利用できなかったMidjourneyでしたが、Web版がリリースされたので使ってみました。リンクは↓の通りです。 https://www.midjourney.com/imagine 利用方法ログイン（Discord or Google）をした後、左側の「Create」ボタンを押下します。そして、上部のテキスト入力エリアにプロンプトを入力すると画像生成が始まります。生成結果生成結果としては、非常に精度が高い画像が生成されました。他画像生成サ

Yasu Shiina

1か月前

8
MidjourneyのWeb版を使ってみた

8

Yasu Shiina

1か月前
Segment Anything Model2(SAM2),Meta AIを使ってみた

先日紹介しましたSAMは、画像認識のモデルでした。 2024年7月29日に発表がありましたSAM2は、動画と画像の両方を認識できるモデルになります。 SAM2のデモサイトのリンクは↓の通りです。 SAMとの違い SAMは画像認識だけだったので、SAM2は動画も認識できるようになりました。以下の画像の通り、動画で流れている途中で分類したい箇所を選択して再送すると、その後も分類された状態になります。例えば、手（青）、ポット（緑）、コップ（黄）とした場合、ポットから出るコップ

Yasu Shiina

1か月前

2
Segment Anything Model2(SAM2),Meta AIを使ってみた

2

Yasu Shiina

1か月前
Segment Anything Model(SAM),Meta AIを使ってみた

Segment Anything Model(SAM),Meta AIのリンクは↓の通りです。画像認識の基礎知識画像認識は、以下の3つに分けることができます。分類(Classification) →🐕がいる場合、「犬」「動物」等に分類（単体に有効）領域検出(Semantic Segmentation) →🐕🐈🐈がいる場合、「犬」「猫」をpixel単位で抽出（物体の抽出はせずに、Pixcel単位で色分けするイメージ）物体検出 Object Detect

Yasu Shiina

1か月前

1
Segment Anything Model(SAM),Meta AIを使ってみた

1

Yasu Shiina

1か月前
アートにおける画像生成AIの活用

toB向けAI活用を生業としていますが、toC向けとしてアーティスト中西伶さんの作品制作の支援を紹介します。上海の宝龙艺术中心（Powerlong Art Center）にて、2023年9月9日から9月23日まで、企画展「Chimaera 奇美拉打开的门会通向哪里?（開かれたキメラの扉はどこにつながるのか？）」が開催されました。発表した作品中西伶さんは、デジタルとアナログを掛け合わせる作品が特徴で、代表作として花をモチーフにした「flower of life」シ

Yasu Shiina

1か月前

7
アートにおける画像生成AIの活用

7

Yasu Shiina

1か月前
Stable Fast 3Dを試してみた　パート2：生成した3D画像をiPhoneでAR表示🍏

Stable Fast 3Dで作成した3D画像をiPhoneでAR表示してみました。今回はMacが必要です。 ①Stable Diffusionで画像生成（2D）プロンプトの指定はなく、好きな画像を作成します。コツとしては以下の通りです。・対象物は1つ・対象物はリアルな画像が良く、明暗が分かりやすい色が良い（赤リンゴ🍎だとうまく3D化できなかったので、青リンゴ🍏で妥協…）・背景はなし、または、対象物と背景の縁取りがハッキリしている方が良い ②Stable Fas

Yasu Shiina

1か月前

4
Stable Fast 3Dを試してみた　パート2：生成した3D画像をiPhoneでAR表示🍏

4

Yasu Shiina

1か月前
画像生成にも必要なマルチモーダル化?

OpenAIのDALL·Eから、画像生成に必要な要素を考察します。https://openai.com/index/dall-e-3 例えば、フェルメールの「真珠の耳飾りの少女」の周りの風景を画像生成します。最新はDALL·E 3ですが、DALL·E 2でのデモから引用しています。フェルメールの絵を想像すると、結構ごちゃごちゃしたお部屋が生成されていました（笑）ただ、画像の出来としてはある程度トーンが合ったいてぱっと見で、悪くないと感じます。その中で、あえて不自然さ

Yasu Shiina

2か月前

2
画像生成にも必要なマルチモーダル化?

2

Yasu Shiina

2か月前
Stable Fast 3D（画像から3D生成）を試してみた

stability AIlから2024年8月2日にリリースされたサービスStable Fast 3Dを試してみました。コードは以下の通りです。 Hugging Face から利用可能で、非商業利用および年間収益100万ドル以下の個人または組織に商業利用を許可する Stability AI Community License の下で提供されています。用意されていた画像で試してみると、精度が高い結果が返ってきました。 3D化の出来、表面のライティングも良さそうです。

Yasu Shiina

2か月前

4
Stable Fast 3D（画像から3D生成）を試してみた

4

Yasu Shiina

2か月前

最近の記事

【FLUX.1】LoRAのトレーニング時間を比較（意外な結果）

【ComfyUI】iPhoneのカメラを使ったリアルタイム画像変換

複雑な画像生成はComfyUIが便利

【FLUX.1】LoRAのトレーニングをやってみた

【FLUX.1】LoRAのトレーニング時間を比較（意外な結果）

【ComfyUI】iPhoneのカメラを使ったリアルタイム画像変換

複雑な画像生成はComfyUIが便利

【FLUX.1】LoRAのトレーニングをやってみた

ComfyUIで画像生成を比較（Stable Diffusion 1.5 vs Flux.1）

ComfyUIで画像生成を比較（Stable Diffusion 1.5 vs Flux.1）

MidjourneyのWeb版を使ってみた

MidjourneyのWeb版を使ってみた

Segment Anything Model2(SAM2),Meta AIを使ってみた

Segment Anything Model2(SAM2),Meta AIを使ってみた

Segment Anything Model(SAM),Meta AIを使ってみた

Segment Anything Model(SAM),Meta AIを使ってみた

アートにおける画像生成AIの活用

アートにおける画像生成AIの活用

Stable Fast 3Dを試してみた パート2：生成した3D画像をiPhoneでAR表示🍏

Stable Fast 3Dを試してみた パート2：生成した3D画像をiPhoneでAR表示🍏

画像生成にも必要なマルチモーダル化?

画像生成にも必要なマルチモーダル化?

Stable Fast 3D（画像から3D生成）を試してみた

Stable Fast 3D（画像から3D生成）を試してみた

Stable Fast 3Dを試してみた　パート2：生成した3D画像をiPhoneでAR表示🍏

Stable Fast 3Dを試してみた　パート2：生成した3D画像をiPhoneでAR表示🍏