画像生成AI導入などについての備忘録


この記事を書いた理由

私は普段は手書きで漫画を描いているんですが、最近の画像生成の動向を見るに、そろそろ制作に本格的に活用できそうと思ったので、AIを生成できる環境構築を頑張ったんです・・が、PCレンタル~画像生成~現在まで結構大変だったので、自分のために備忘録として残しおく+もし画像生成AIに興味のある方がいたら、その方の時間節約になるといいなと思って執筆しました。

手軽にAIを利用してみたいと考えている方へ


ラフ絵から線画に整えられるウェブアプリの記事

無料です。高額なPCはいりません。ネット環境さえあれば利用できます。


ウェブアプリへの直リンク(速攻試したい人へ)
https://huggingface.co/spaces/tori29umai/sketch2lineart

基本的には以下の流れで実行です
input_imageにラフ画像を入れる
②prompt_analysisでプロンプトを自動生成
(手動でプロンプトの調整ができます)
③Lineart_fidelityで線画の影響度を調整
④generateで画像生成


ラフが綺麗に清書されない場合はLineart_fidelity(線画忠実度)の数値を下げてみてください。

※you have exceeded your GPU~と表示されたらブラウザの画像キャッシュを消してページを更新するといいかもしれません。

WEBアプリで生成した出来たもの


画像生成AIについて入門・導入など


youtubeでの勉強もおススメです。


まずはStable Diffusion Webui と comfyUIをインストールしてみることをオススメします。

両方ともUIを日本語化できますが、comfyuiは日本語化されても言葉の意味が分からないのと、すべてが翻訳されるわけではありませんし、検索する場合は英語じゃないと情報が出にくいですし、一部中国語のような表記になるので、気合で英語のuiを使用するのがいいかもしれません。



comfyuiのワークフローです。


このワークフローの説明

このワークフローは複雑に人物が絡み合ったラフ絵から、ベースのプロンプト以外を設定しなくても、下絵やそのまま使用できるレベルの絵を出力することを目標としたものです・・・が調整中のため、まだまだ挙動は不安定です。

ワークフロー内のnoteにざっくりとした各ノードの機能について説明を書いています。 comfyuiについてある程度理解した上での使用をお勧めします。

Preset Textにベースのポジティブプロンプトを設定する必要があります。

自分の場合はグレイスケール系の絵が欲しいので以下のプロンプトをベースに設定しています。

ポジティブプロンプト

masterpiece,white_background,lineart, greyscale, monochrome, lineart,  score_9, score_8_up, score_7_up, score_6_up, score_5_up, score_4_up,source_anime 


※例えばエ〇チな絡みシーンなどを出力してもらいたい場合は具体的なポーズなどは指定せずに漠然とした行為のタグなどを設定するとi2iをしたときにどのポーズでもi2iが成功しやすくなったりします。


玄人向けの使用方法の説明
以下の使用しているモデルの下2つのどちらかをセット。
ラフ画像をload imageにセットした後で生成してください。

上手く生成されなかったらごめんなさい。

初心者向けの使用方法の説明
(comfyuiをStabilityMatrixでインストールしいる前提です。あとOSはウィンドウズ)

上のjsonファイルをダウンロードしてcomfyuiのメニューからjsonをロード。

・ワークフローが表示されると赤いノードがいくつかあると思います。
それを画面右メニューのManagerをクリックしてinstall missing custom nodeという項目があるので、そこをクリックして表示されているカスタムノードを全てインストール。

※右メニューにManagerない場合は以下の手順を参考に頑張ってcomfyui managerをインストールしてください。そしてインストール後に上の手順を行ってください。

1.この記事を参考にGitのみをインストールしてください。
Stable Diffusion WebUI(AUTOMATIC1111)をローカルPCに導入しよう! (itdtm.com)

2.ウィンドウズのタスクバーの検索窓でcustom_nodesフォルダを検索して開きます。custom_nodesフォルダを開いたら下記の記事の画像を参考に
フォルダ内の何も無いところで、右クリックしWindows11なら更にその他のオプションを確認を押して「Git Bash Here」があるのでそれをクリックします。

すると、なにやら怪しい画面(コマンド画面)が出現しますので$の横に
git clone https://github.com/ltdrdata/ComfyUI-Manager.git
上のコマンドをコピー&ペーストしてエンターキーを押してください。
(コマンド画面へのペーストはキーボードのショートカットではできません。たぶん)

そして以下の参考記事のように成功してそうな画面が表示されたらインストール完了です。
ComfyUI Managerのインストール手順を解説します (itdtm.com)


 全てのノードをインストールした後に必要なものが以下の2つです。
(両方ともcomfyui managerのInstall Modelsからインストールできます
検索バーでそれぞれ検索してください。)

sdxl_vae.safetensors
CN-anytest_v4-marged_pn_dim256.safetensors (dim256/Pony)

学習モデル(どちらか一つでOK)
t-ponynai3
wai-ani-nsfw-ponyxl

civitaiでモデルをダウンロードする際の参考記事https://romptn.com/article/6279

モデルをダウンロードしたらWindowsの検索バーやエクスプローラーの検索バーからStabilityMatrixフォルダ内のModelsフォルダにあるStableDiffusionフォルダを探してそこにモデルファイルを置いてください。

全ての作業を終えたらいったんcomfyuiを再起動してください。

・左下のLoad Imageにラフ絵をセットします。

・Load Imageの右斜め上のLoad Checkpointに、ダウンロードしたモデルをセットし、画面右端の生成ボタン(Queue Prompt)を押す。
※初回起動時に一部のカスタムノードにモデルのダウンロード待ち時間が発生します。

・そうするとラフがいい感じの絵になって出力されてくるはずです。
ここまで頑張って出力されなかったら本当にごめんなさい。

使用しているモデル

モデル使用の注意点

※私は画像生成についての理解が不足しているため、ここで書かれていることは間違っている可能性があります。そのため商用目的にで画像生成AIを利用したいと考えている方は、AIついて改めて自身で調べて頂くことをお勧めします。

※基本的な考えとしてstable diffusionのベースモデルから派生のモデルまで画像生成に必要なstable diffusionの学習モデルは、その殆どが無断学習で作成されているものです。更に言うとchatGPTなどの文章生成や音楽生成などのAIもその殆どは無断学習です。

※生成された画像を商用利用することは日本においては現時点では合法です。ただし、著作権的に保護されているキャラクター・特定の作家の作風に著しく寄せた絵柄・実写系は現実にいる人物に似ているもの、これらの画像を生成して発表や販売する場合は違法になる可能性あります。

※私が使用しているモデルは基本的に生成された画像については商用利用可能(一応)のものですが、NAI3(novelAIの最新バージョンでリークモデルとは違います)の画像を使用したものも含まれています。そのため倫理的な批判を受ける可能性があり、法的にも将来リスクが発生する可能性があるモデル(これは殆どの学習モデルにも該当するかもしれません)なので商用利用を考えている方はご注意ください

  • animagine-xl-3.1
    アニメ系の絵が出しやすい。i2iで難しいポーズの生成は苦手。

  • pony-diffusion-v6-xl
    i2iで難しいポーズを生成しやすい。
    商用利用の際は、contact@purplesmart.aiに連絡が必要。
    この条項はponyの派生モデル全てに適用されます。

  • wai-ani-nsfw-ponyxl
    pony派生モデル、ポニーより更にi2iで難しいポーズを生成しやすい。
    ※説明欄にあまり説明の記載がないので著作権的に非常に危険な香りが漂っています。

  • t-ponynai3
    pony派生モデル、ポニーより更にi2iで難しいポーズを生成しやすい。
    novelAIで生成した画像をトレーニングに使用したようです。

主なモデル配布サイト

huggingface
huggingfaceでモデルをダウンロードする際の参考記事:
https://blogcake.net/hagging-face/

civitai.com
civitaiでモデルをダウンロードする際の参考記事:https://romptn.com/article/6279



無料で利用できる便利なツール

google翻訳
https://translate.google.co.jp/
最近はPDFや画像を翻訳することができます。

Poe
https://poe.com/
いろんなAIチャットを試すことができる。
GPT4oやGeminiがClaude-3.5-Sonnet利用可能(回数制限あり)

Gemini
https://gemini.google.com/
googleのAIチャット

ChatGPT
https://chatgpt.com/
AIチャット元祖


質問の具体例(Poeより):


画像生成に必要なオススメPCスペックについて


結論から申しますとPCを選ぶ際は

CPU:14世代~12世代のcore i5 以上 ryzenは7000・5000シリーズのryzen 5以上 
GPU:RTX4070以上 メモリ12GB以上
メモリ:32GB以上 (16GBでも可)
SSD:容量1TB以上 

これらの項目に注目して記載以上のスペックのものを選べば、問題ないと思います。

詳しくは下記をご覧ください。

GPUについて

画像生成においてはGPUというパーツが最重要なものです。
※GPU(グラフィックなんちゃらユニット)通称:グラフィックボード、グラボ、ビデオカード等と呼ばれています。

gpuは大きく分けてnvidia系とamd系があります。

現時点では画像生成系に限らずゲーム等でも、グラフィックボードはnvidia系にしといた方が無難です。

ある程度快適に画像生成するならgpuはRTX4070以上を搭載したPCがおすすめです。

RTX4070のほかには、性能が高い順に4090、4080super、4080、4070ti super、4070ti、4070 super、があります。

superはちょっと高性能になっているやつです。基本的にsuperの方が画像生成には有利。

その他にも以下のGPUでも良いと思います。
4060ti(メモリ16GB版)、RTX3000シリーズだと3080、3090


GPU別の生成速度比較記事

参考URLのグラフに時折出てくるGPU名の後ろについているforgeとは

ザックリいうとStable Diffusion web UIという画像生成するためのソフトウェアがありまして、それの実験版みたいなものです。

forge版は通常版より生成速度が速いですが、Forge版は今後テスト版として扱われ、多くの拡張機能が動かなくなる可能性があります。そのため、普段使いには通常版(安定版)を使用することが推奨されています。

※通常版の開発版にforgeのシステムが組み込まれました。そのうちに通常版にも組み込まれるようです。
(開発版に変更してみましたが、2024年6月現在の自分の環境ではforge版の方が全然早いです)

cpuについて

14世代13世代のintel core i5以上ならなんでもいいと思います。

世代の見分け方はcpuの欄にcore i7 14xxx~やcore i7 13xxx~と書いてあるもの、例えば、14世代なら i7-14700F 。13世代ならi7-13700 。(Fはcpu内臓グラフィックの有無です)  

ryzenシリーズは、現在は7000・5000シリーズのryzen 5以上が良いと思います。
具体的な表記の例は、AMD Ryzen 7 5700X AMD Ryzen 5 7600X

メモリについて
メモリは最低16GB以上できれば32GBはあった方が良いです。
もっと言うならメモリは多ければ多いほど良いです。

SSDについて

何かしらの制作などに使用する場合は2TB以上にするか
あとから外付けHDDかSSDを増設することをお勧めします。

※ちなみにSSDは2~3か月くらい通電しないとデータが消失します。
しかしSSDは読み込みが超高速というメリットがあります。

PCレンタルについて

PCをレンタルできる会社はいろいろありますが、手軽に利用できるのはレンティオだと思います。しかし、私が実際にレンタルしているのはブリージョンという会社です(詳細は後述します)。

〇両社共通の特徴

・レンタルの際には、顔写真が入った身分証明書が必要です。スマートフォンで身分証と自分の顔を写真で撮影し、送信する必要があります。

・最低3か月は借りる必要があり、それ未満で解約すると解約金が発生します。

・両社とも、一定期間後にPCの所有権が借りた人に移るタイプのレンタル方法を提供しています。

返却予定の場合は賃借料として減価償却なしで経費にすることができるようです。(経費計上を前提にレンタルを検討している方は、賃借料について詳細を確認することをお勧めします)

注意点として、期間満了後に返却せずにPCをそのまま所有する場合、実質的にはローンで購入するのと同じ扱いとなり、減価償却が発生します。

私は、減価償却が発生すると判明した時点で調査を中止しましたので詳しくはわかりません。


〇レンティオについて

レンティオでは、RTX4070搭載のハイスペックPCが月額約1万円からレンタルできます。

私は最初にPCと液タブを注文しましたが、審査が通りませんでした。
レンティオに問い合わせたところ「商品を借りる理由と写真を送って本人確認をしたい」とのことだったので、それを行いました。

するとレンティオから審査OKの返事が返ってきて、再度同じ商品を別々に注文するように言われました。

しかし私は再注文手続きが面倒に感じてしまって、最終的には以下の理由からブリージョンで契約を結ぶことにしました。

  • オプションで新品を選択できる

  • GPUがその時点でのレンティオでレンタルできるGPUより高性能だった

〇ブリージョンについて

ただし、この会社を強くオススメすることはできません。その理由は、商品の発送が思ったよりも遅いことと、支払いが日割り計算されないことです。

私は5月4日にPCのレンタルを注文しましたが、PCが届いたのは12日後の5月16日でした。販売ページのQ&Aには「オプションを選んだ場合には発送に時間がかかる」と記載されており、私は注文時にメモリの増量と新品オプションを選択したので、そのために遅れたのかな?と考えていました。

しかし、オプション選択画面での配送遅延の説明がなかったことや、注文後の進捗が分からなかったこと、SNSやネットにもほとんど情報がなかったことから、本当にPCが届くのか、もしかして詐欺ではないかと不安になりました。

例えば、PCの組み立てや発送の進捗についてや、オプションを選んだ場合は組み立てから発送まで最大で2週間ほどかかる、などという説明があれば安心できました。

日割り計算がされないことについては以下の通りです。

  1. 初回注文時の5月4日に月額レンタル料(約22,000円)を支払います。

  2. 次は同月の27日に初回と同額の支払いになります。

このように、同じ月に二度支払うことになります。そのため、私はPCが届いてから僅か11日の使用で約44,000円を支払ったことになります。

Q&Aに日割り計算がされないと記載されていたので理解していましたが、想定よりPCが届くのが遅く、使用期間が短い中で満額の月額利用料を徴収されたことはどこか釈然としません。

ただし、PCの入れ替え時期が重なってしまった可能性もあります。ウェブサイトに掲載されていたPCのCPUは1世代前の13700でしたが、届いたPCのCPUは最新の14700Fでした。この点については嬉しい誤算でしたが、事前に説明がないとやはり心配です。PC返却の際にトラブルにならないか今も心配しています。

以上の理由から強くはお勧めできませんが、PC自体には満足していますし、新品オプションは魅力的ですので、一応ご紹介させていただきます。

返却できた際は、追記します。

読むと参考になるかもしれない画像生成AI系の記事


2024年6月27日 一部修正を行いました。


この記事が気に入ったらサポートをしてみませんか?