Xlabs Flux1 IPAdapter on ComfyUI
何と言うか、Xlabsの開発攻勢が凄いです。Flux1におけるControlNetモデルのフォーマット上の主導権を一気に掌握すべく、立て続けにモデルを発表しています。
V3で一定完成度の高いcanny、depth、hedを投入し、今度は画像生成AIシーンにおけるこれまたお馴染みの機能であるIP-Adapterを投入してきました。
Xlabsのサンプルノードを元に、私も独自の工夫を加えて組んでみました。やはり、IP-Apapterではollamaを使いたいところですし。
繰り返し書くようにXlabsのノードは排他性が強いのですが(ノードを組んでいると実感します。とにかく自由度が限定されます)、この程度のカスタマイズは可能です。
しかし、IP-Adapterは前述の3つのControlNet以上に激重です。そして、NF4は勿論、GGUFですら動作しません。
fp8は動作しますが、これはRTX4070 12GBでは例によって完全に共有VRAMを使いに行く為、実用的な速度は全く担保できません。RTX4070 12GBよりも寧ろRTX4060Ti 16GBの方がマシな動作をする筈です。
ここまでのControlNetは何とかVRAM12GBに収まってきましたが、IP-AdapterはNF4やGGUFを使用できない限り、完全に実用的な速度から逸脱する形になってしまいました。
対策としてはもう二択です。
最低でもRTX4070Ti Superを購入するか、ローカル環境を諦めてGoogleに移行するか…です。
とは言え、その前に妥協的な対策を一つ。
下図のようにDevを諦めて、Flux1-Schnellに切り替え、4stepsで生成することです。
下図のように完全に共有VRAMを使いに行く為、1stepの時間は壮絶にかかりますが、devで20stepsをこなすよりは遥かにマシになります。
何とか、12GBに収まる方法が開発されてほしいとは思いますが…現状ではここまでが、自分に出来る限界ですね。
あと、先刻ControlAltAIのメンバー向けメッセージとビデオが更新されましたが、彼らはXlabsの排他的方向性に相当ストレスを感じているようです。
(IP-Adapterの余りの重さと取り回しの排他性に、ブチ切れた感もありますが)
気持ちはわからなくもない.…何でも新しい挑戦自体は賞賛されるべき事と思いますし、先日私も記述したように、その挑戦そのものには私も諸手を挙げて拍手を送りますが、純粋に技術的見地からの是非は完全に別次元の議論としてあって然るべきです。
最新のメッセージでは、Flux1はモデル単体で何でもできるのに、IP-AdapterもControlNetも必要あんのかよ…とややキレ気味なメッセージと共に、開発中のノードとフローの一部が公開されました。
(キレる気持ちもわかるのは、IP-Adapterでは、ControlAltAIのノードが完全に排斥されるという点もある気がします。Samplerだけでなく、完全無関係に見えるResolution設定ノード迄排除されます。組み合わせるとエラーを起こします)
「いつものことながら複雑」と彼ら自身が言っているように簡単に再現できる類の難易度ではなさそうですが、メンバー向けにはノードが配布されるので、何とかなるでしょう。
一般向けにもビデオは完全に無料公開されるので、ComfyUIの経験値が一定ある人ならば、じっくり腰を据えて動画を真似すれば再現はできる筈です。
ちなみに、IP-Adapater的な機能に近いワークフローは確かにFlux1の場合、ControlNet抜きでも出来ると言えばできます。私も一つ作りかけてますが、拍子抜けする位簡単に似た様なことは出来ます。
ControlAltAIのComfyUIにおけるノードとワークフロー開発技術に対しては、私は完全に信頼を寄せているので(だから、ささやかでもお金出してサポートしてる訳で)、彼らならもっと洗練されたものを出してくるはずです。