Yasu Shiina

画像生成・画像認識AIを中心に投稿する予定です。 Ubuntu、RTX A6000を使…

Yasu Shiina

画像生成・画像認識AIを中心に投稿する予定です。 Ubuntu、RTX A6000を使っています。 2017年からAIを活用したシステム開発、調査を生業をしています。 現在は、企業向けにAIに関する助言を行っています。

最近の記事

【FLUX.1】LoRAのトレーニング時間を比較(意外な結果)

以前の記事でFLUX.1を使ったLoRAのトレーニングを説明しました。今回もai-toolkitを使って実験をします。 実験内容 512x512(pixel)の画像を5枚、10枚、15枚用意し、トレーニングをします。トレーンイグ用画像はComfyUI(FLUX.1-dev)で作成しました。 キャプションは「Add AI captions with Florence-2」の結果をそのまま使用しました。 Advanced optionsはデフォルト通りです。 ・Steps :

    • 【ComfyUI】iPhoneのカメラを使ったリアルタイム画像変換

      前回に続き、ComfyUIを利用し画像生成を行います。今回はリアルタイムでの画像変換についてご紹介します。 利用するComfyUIのカスタムノードは「ComfyUI_toyxyz_test_nodes」になります。残念ながらUbuntuですと、一部機能が使えません。(今回のご紹介する機能は使えます) ComfyUI_toyxyz_test_nodesとは Image To Imageで画像変更をしたい場合、Load Imageのノードを利用し、PCに保存された画像を取り込み

      • 複雑な画像生成はComfyUIが便利

        前回の記事にてComfyUIを使って画像生成を説明しました。一見使いづらそうですが、ComfyUIの便利な機能を説明します。 SDWebUIとComfyUIの比較 Stable Diffusionで単純な画像生成をする場合、Stable Diffusion WebUI(以後、SDWebUI)が一般的であり、ユーザビリティが高いと言えます。Text To ImageやImage To Imageもタブ切り替えで利用できます。 例えば、赤リンゴの画像を同じ構図の緑リンゴの画像

        • 【FLUX.1】LoRAのトレーニングをやってみた

          前回の記事でFLUX.1が高精度の画像生成ができることを説明しました。 Stable Diffusionでもそうですが、画像生成のモデルをカスタマイズしたくなります。モデル全体にカスタマイズをするファインチューニングは技術的にハードルが高いため、容易にはできません。そこで使われる技術としてLoRAがあります。 LoRAとは LoTA(Low-Rank Adaptation)とは、少ない画像をトレーニングをし、その特徴を画像生成に活かすことができる便利な技術です。元のモデル(

        【FLUX.1】LoRAのトレーニング時間を比較(意外な結果)

          ComfyUIで画像生成を比較(Stable Diffusion 1.5 vs Flux.1)

          ComfyUIとは Stable Diffusionを起動するUIとして、Automatic1111以外に似たようなUIのForgeや、ComfyUIがあります。 ComfyUIについては(使い始めたばかりのため機能比較のレビューはできませんが)、入力から出力までフローベースで組み立てられるのが特徴です。 ComfyUIの活用事例 テレビ東京「Newsモーニングサテライト」にて、中国のオンラインゲーム会社がキャラクターデザインをAIで制作していました。作成風景からComfy

          ComfyUIで画像生成を比較(Stable Diffusion 1.5 vs Flux.1)

          MidjourneyのWeb版を使ってみた

          Discord上でしか利用できなかったMidjourneyでしたが、Web版がリリースされたので使ってみました。リンクは↓の通りです。 https://www.midjourney.com/imagine 利用方法 ログイン(Discord or Google)をした後、左側の「Create」ボタンを押下します。そして、上部のテキスト入力エリアにプロンプトを入力すると画像生成が始まります。 生成結果 生成結果としては、非常に精度が高い画像が生成されました。 他画像生成サ

          MidjourneyのWeb版を使ってみた

          Segment Anything Model2(SAM2),Meta AIを使ってみた

          先日紹介しましたSAMは、画像認識のモデルでした。 2024年7月29日に発表がありましたSAM2は、動画と画像の両方を認識できるモデルになります。 SAM2のデモサイトのリンクは↓の通りです。 SAMとの違い SAMは画像認識だけだったので、SAM2は動画も認識できるようになりました。 以下の画像の通り、動画で流れている途中で分類したい箇所を選択して再送すると、その後も分類された状態になります。例えば、手(青)、ポット(緑)、コップ(黄)とした場合、ポットから出るコップ

          Segment Anything Model2(SAM2),Meta AIを使ってみた

          Segment Anything Model(SAM),Meta AIを使ってみた

          Segment Anything Model(SAM),Meta AIのリンクは↓の通りです。 画像認識の基礎知識 画像認識は、以下の3つに分けることができます。 分類(Classification) →🐕がいる場合、「犬」「動物」等に分類(単体に有効) 領域検出(Semantic Segmentation) →🐕🐈🐈がいる場合、「犬」「猫」をpixel単位で抽出  (物体の抽出はせずに、Pixcel単位で色分けするイメージ) 物体検出 Object Detect

          Segment Anything Model(SAM),Meta AIを使ってみた

          アートにおける画像生成AIの活用

          toB向けAI活用を生業としていますが、toC向けとしてアーティスト中西 伶さんの作品制作の支援を紹介します。 上海の宝龙艺术中心(Powerlong Art Center)にて、2023年9月9日から9月23日まで、企画展「Chimaera 奇美拉打开的门会通向哪里?(開かれたキメラの扉はどこにつながるのか?)」が開催されました。 発表した作品 中西 伶さんは、デジタルとアナログを掛け合わせる作品が特徴で、代表作として花をモチーフにした「flower of life」シ

          アートにおける画像生成AIの活用

          Stable Fast 3Dを試してみた パート2:生成した3D画像をiPhoneでAR表示🍏

          Stable Fast 3Dで作成した3D画像をiPhoneでAR表示してみました。 今回はMacが必要です。 ①Stable Diffusionで画像生成(2D) プロンプトの指定はなく、好きな画像を作成します。コツとしては以下の通りです。 ・対象物は1つ ・対象物はリアルな画像が良く、明暗が分かりやすい色が良い(赤リンゴ🍎だとうまく3D化できなかったので、青リンゴ🍏で妥協…) ・背景はなし、または、対象物と背景の縁取りがハッキリしている方が良い ②Stable Fas

          Stable Fast 3Dを試してみた パート2:生成した3D画像をiPhoneでAR表示🍏

          画像生成にも必要なマルチモーダル化?

          OpenAIのDALL·Eから、画像生成に必要な要素を考察します。https://openai.com/index/dall-e-3 例えば、フェルメールの「真珠の耳飾りの少女」の周りの風景を画像生成します。 最新はDALL·E 3ですが、DALL·E 2でのデモから引用しています。 フェルメールの絵を想像すると、結構ごちゃごちゃしたお部屋が生成されていました(笑)ただ、画像の出来としてはある程度トーンが合ったいてぱっと見で、悪くないと感じます。 その中で、あえて不自然さ

          画像生成にも必要なマルチモーダル化?

          Stable Fast 3D(画像から3D生成)を試してみた

          stability AIlから2024年8月2日にリリースされたサービスStable Fast 3Dを試してみました。 コードは以下の通りです。 Hugging Face から利用可能で、非商業利用および年間収益100万ドル以下の個人または組織に商業利用を許可する Stability AI Community License の下で提供されています。 用意されていた画像で試してみると、精度が高い結果が返ってきました。 3D化の出来、表面のライティングも良さそうです。

          Stable Fast 3D(画像から3D生成)を試してみた