見出し画像

1万文字:【スタンフォード大学生発】AIイラストツール「PaintsUndo」❗️もう絵心は不要❓️ワンクリックで完成イラストからスケッチや彩色などの過程を再現し、編集も自由自在に❗️

イラスト制作の常識を覆す!?AIの魔法「PaintsUndo」で時を操る!

どうも皆さん!冷蔵庫開けるたび「何か食べるものないかな~」って言いながら結局何も食べないタイプの女、葉加瀬あいです!

皆さん、絵を描くのって楽しいですよね!
でも、複雑な工程や緻密な作業に圧倒されて、「自分には無理かも…」と諦めてしまった経験はありませんか?

そんなみなさんに朗報です!
今回ご紹介するPaintsUndoは、イラスト制作の常識を覆す、まるでタイムマシンのようなAIツールなんです!

2024年7月10日、あのStable Diffusionを生み出した天才開発者Lvmin Zhang氏率いる、スタンフォード大学の研究グループが発表したPaintsUndo
なんと、完成したイラストを入力として受け取るだけで、まるで魔法のように、そのイラストが描かれるまでの過程を細かく再現してくれるんです!

「え、そんなことできるの?」と思った方もいるかもしれません。でも、PaintsUndoなら、熟練のイラストレーターがスケッチから彩色まで丁寧に描いていく様子を、AIが段階的に再現してくれるんですよ。まるで、イラスト制作のタイムマシンに乗っているみたいですよね!

しかも、このPaintsUndo、有志の方によって、Google Colabで試せる実験コードも公開されているんですって!
Google Colabとは、Googleが提供するブラウザ上でPythonのプログラムを実行できる無料のサービスで、機械学習やデータ分析によく使われています。

もう少し詳しく説明すると、PaintsUndoは、AIに画像を見せるだけで、まるで人間のイラストレーターがその画像を見て描いているかのように、線画の描画やスケッチ、彩色などを自動的に行ってくれる技術なんです。

「イラストを描きたいけど、絵心がないから…」と諦めていた人も、PaintsUndoを使えば、簡単にイラスト制作を楽しめるようになるかもしれませんね!

この革新的なツールを使いこなせないと、時代に取り残されてしまうかも…。
でも、大丈夫!この記事を読めば、PaintsUndo仕組み使い方丸わかり!みなさんもAIの魔法でイラスト制作をもっと自由に、もっと楽しくできるようになりますよ!

この記事では、以下の3つのポイントを分かりやすく解説していきます。

1.  PaintsUndoの基礎知識: イラスト制作の時を操るって一体どういうこと?
2.  インストール方法: 自分のパソコンでPaintsUndoを使うにはどうすればいいの?
3.  実践的な使い方: 実際にPaintsUndoを使って、イラスト制作をもっと楽しくするには?

学習の準備ができたら、一緒にPaintsUndoの世界へ飛び込んでいきましょう!


⚠️この記事を読む前に…⚠️

この記事は、わたし、葉加瀬あいのNoteマガジン「あいラボ」の一部です。 より快適に記事を読むために、以下の記事を先に読んでおくことをおすすめします!

葉加瀬あいのプロフィールhttps://note.com/ai_hakase/n/ncdcda4208fd7

このプロフィール記事では、私の活動内容や記事を読む上での注意点などをまとめています。

それでは、本題に戻りましょう!

⚡️動画で見たい方はこちら⚡️

「文章を読むより、動画で見たい!」という方は、以下のマガジンをチェックしてみてください!

あいラボ(Youtube版)https://note.com/ai_hakase/m/m093618cdf798

この記事の内容を解説したYouTube動画のリンクを掲載しています。

ただし、動画コンテンツはNoteメンバーシップ会員限定となりますので、ご了承ください。

あいラボのメンバーシップhttps://note.com/ai_hakase/membership


2. 開発者について

2.1 lllyasvielさんの経歴

さて、この驚きのAIツールPaintsUndoを生み出したのは、一体どんな人物なのでしょうか?

lllyasviel(イリアスヴィエル)氏は、機械学習およびディープラーニング分野で著名な研究者および開発者です。2022年にスタンフォード大学に入学してコンピューターサイエンスの博士号を取得した若き研究者で、2021年には香港中文大学で研究助手を務め、工学の学位も取得しています。若くしてこれだけの実績を持つ、まさに天才肌の人物なんです!

[画像:Lvmin Zhang氏の写真]

Reference Clip:https://lllyasviel.github.io/Style2PaintsResearch/lvmin

「いやいや、学生さんがそんなすごいもの作れるの?」と、びっくりしちゃいますよね。

でも、実はlllyasvielさんは、それだけじゃないんです!

彼は、「Fooocus」「Omost」「LayerDiffuse」など、数々の革新的なAIツールを開発してきた、まさにAI界の若き天才なんです!

例えば、LayerDiffuseのおかげで、ガラスの透明感など、これまで再現が難しかったリアルな質感表現が可能になりました。商品画像の編集などにも役立ちそうですよね!

[画像:LayerDiffuseの出力例]

私も以前、LayerDiffuseについて解説した記事を書いているので、興味のある方はぜひ読んでみてください!

コラム:

  • GitHubとは? ソフトウェア開発者がプログラムのソースコードを共有・管理するためのプラットフォームです。PaintsUndoのソースコードもGitHub上で公開されており、誰でも自由にダウンロードして利用できます。

2.2 ControlNetとの関連性

さらに驚くべきことに、lllyasvielさんは、AIイラスト制作に革命を起こしたControlNetの発明者でもあるんです!

ControlNetは、画像生成AIのStable Diffusionをより細かく制御できる画期的な技術で、世界中のクリエイターから絶大な支持を得ています。

[画像:ControlNetの出力例]

「ControlNetって聞いたことある!」という方も多いのではないでしょうか?

私もControlNetについて解説した記事を書いているので、簡単に言うとどんな技術なのか、知りたい方はぜひ読んでみてください!

それだけじゃありません!ライティングを自在に操るIC-Lightも、彼の作品なんです。

[画像:IC-Lightの出力例]

この技術についても少し解説しているので、興味のある方はぜひ読んでみてください!

もう、才能の塊すぎますよね!

こんなすごい人が開発したPaintsUndo、使わないわけにはいきませんよね!

3. PaintsUndoの主要機能と特徴

3.1 描画プロセスの再現

PaintsUndoの最大の特徴は、なんといってもその描画プロセスの再現機能です!

まるで完成したイラストをタイムマシンに乗せて、過去に戻って描き始めを見ているような感覚を味わえるんです!

使い方はとっても簡単!完成した画像をPaintsUndoにインプットとして放り込むだけで、AIが下描きから着彩までのステップを自動で生成し、動画としてアウトプットしてくれるんです。

まるでイラストレーターさんが目の前で描いてくれているみたいで、ワクワクしちゃいますよね!

3.2 スケッチから彩色までの段階的生成

PaintsUndoは、イラスト制作の全工程を再現できるんです!

スケッチ、インク付け、着色、シェーディングなど、イラストが完成するまでの段階的なプロセスを、AIが丁寧に再現してくれます。

しかも、ただ再現するだけじゃありません!

変形、左右反転、カラーカーブの調整、レイヤーの表示の変更など、まるでイラスト制作ソフトを使っているかのように、自由に編集することもできるんです。

さらにすごいのが、描画プロセス中の全体的なアイデアも変更できちゃうこと!

これなら、初心者さんでも、複雑な線画や繊細な色彩表現を含む本格的なイラストの制作過程を体験できますね!

3.3 単一フレームのスケッチ抽出

PaintsUndoは、完成したイラストから単一フレームのスケッチを抽出することも可能です。

「このイラストの線画だけ欲しいな…」なんて時に便利ですよね!

PaintsUndoの革新的な点は、なんといっても、イラスト制作の全工程一括で、しかも巻き戻し自由に行えることなんです!

従来のAIイラストツールでは、手描き、線画、彩色といった過程をそれぞれ別の技術で行っていましたが、PaintsUndoはこれらの過程をシームレスに繋げ、まるでイラスト制作の時間を操っているかのような体験を可能にしたんです!

開発者のlllyasvielさんは、「将来のAIシステムが人間のアーティストの実際のニーズをよりよく満たせることを目的」として、このPaintsUndoプロジェクトを進めているそうです。

4. システム要件と処理性能

4.1 VRAM要件と推奨スペック

さて、気になるのは「自分のパソコンでもPaintsUndo使えるのかな?」ということですよね。

PaintsUndoは、VRAM(Video RAM)をたくさん使うAIツールなんです。

Reference:https://www.nicehash.com/blog/post/what-is-the-difference-between-gpu-and-vram-temperatures?lang=ja

VRAMって、グラフィックカードに搭載されているメモリのことなんですけど、これが10GB以上ないと、PaintsUndoは動いてくれないみたいなんです…。

「VRAMって、そんなに必要なの?」って思いますよね。

でも、PaintsUndoは、Nvidia 40903090TIといった、24GBものVRAMを搭載したグラフィックカードでテストされているので、それだけの容量が必要なんですって。

「えー、私のパソコンじゃ無理じゃん…」と、諦めるのはまだ早いですよ!

16GB VRAMでも動く可能性はあるみたいなんです。ただ、8GBだと厳しいみたいなので、注意してくださいね。

開発者の方によると、極端な最適化を行えば、理論上は10~12.5GBのVRAMでも動くらしいです。

でも、動画の再生だけで15GBくらいのVRAMを使うそうなので、やっぱりハイスペックなパソコンじゃないと厳しいかもしれませんね…。

コラム:

  • VRAMとは? グラフィックカードに搭載されているメモリのことです。画像や動画の処理を高速に行うために使われます。PaintsUndoのようなAIツールを使うには、ある程度のVRAM容量が必要です。


4.2 処理時間と出力品質

どのくらいの時間でイラストが完成するの?」って気になりますよね。

PaintsUndoの処理時間は、設定にもよるのですが、1つの画像を処理するのに約5~10分かかるそうです。

「結構時間かかるんだ…」って思うかもしれませんが、その分、出力される動画の品質はかなり高いみたいですよ!

典型的な結果としては、解像度320x512512x320384x448、または448x384で、FPS 425秒の動画が得られるそうです。

4.3 生成例とクオリティ比較

百聞は一見に如かず!ということで、PaintsUndoで生成されたタイムラプスアニメーションの例を見てみましょう!

これらの例を見ると、クオリティの高いものから、もう少し改良が必要なものまで、様々な結果が得られることがわかりますね。

もっとたくさんの例を見たい方は、プロジェクトページをチェックしてみてください!

5. 技術的詳細

PaintsUndoの動作原理

PaintsUndoは、一体どのような仕組みでイラストの描画過程を再現しているのでしょうか?

実は、PaintsUndoは2つのAIモデルを組み合わせて、まるで魔法のような機能を実現しているんです。

まず、PaintsUndoは入力されたイラストを1000ステップに分解します。

そして、各ステップごとにイラストを生成し、さらに高品質な中割り生成モデルを使ってイラストを完成させるという流れになっています。

まるでイラストが少しずつ完成していく様子を早送りで見せてくれるみたいですよね!

5.1 single-frame modelとmulti-frame modelの解説

PaintsUndoを支える2つのAIモデル、single-frame modelmulti-frame model

一体どんな役割を担っているのでしょうか?

single-frame model

single-frame modelは、1つの画像とoperation stepという数字情報を入力として受け取り、1つの画像を出力するモデルです。

「operation stepって何だろう?」と思った方もいるかもしれませんね。

これは、イラストが完成するまでに人間が何回操作(例えば、ブラシストロークなど)を行うかを表す数字なんです。

つまり、single-frame modelは、イラストレーターさんが1000回の操作でイラストを完成させる過程を模倣しているんです!

operation stepは999(何も描かれていない真っ白なキャンバスに最初に書き込まれたストローク)から始まり、operation stepが減るごとに操作が1回分追加されていきます。そして、operation stepが0、つまり1000回目の操作が行われた時に絵が完成する、という仕組みになっています。

single-frame modelは、Stable Diffusion v1.5をベースに作られていますが、いくつかの点が異なります。

まず、clipschedulerが変更されています。

コラム:

  • clipとは? 画像とテキストを関連付けるAIモデルです。PaintsUndoでは、clipを使って画像の内容を理解し、それに基づいて描画過程を再現します。

  • schedulerとは? AIモデルの学習過程を制御する仕組みのことです。PaintsUndoでは、schedulerを調整することで、より高品質な画像を生成できるようにしています。

clipはViT-L/14をベースとしており、最後のレイヤー(12層目)が完全に削除されています。そのため、CLIP Skipは常に2に設定されています。

CLIP Skip は、簡単に言うとどの程度までプロンプトを反映させないかを制御するものになりますね!これによって不要なプロンプトの反映を防ぐことができます!

clip や schedulerなどの詳しい説明についてはこちらで解説をしているので良かったら見てみてください!

さらに、operation stepという生成条件が追加されています。これは、SDXLEmbeddingと同様の方法で、埋め込み層に生成条件を追加することで実現されています。

multi-frame model

single-frame modelがキーフレームを生成するのに対して、multi-frame modelは、そのキーフレーム間を補間する役割を担っています。

2つの画像を入力として受け取り、その間の16個の中間フレームを出力するモデルなんです。

中割り生成モデルみたい!」と思った方もいるかもしれませんね。

確かに、イラストとイラストの間を埋めるという点では似ていますが、multi-frame modelは動きを補完するのではなく、1つ目の画像から2つ目の画像に変化していく過程を再現するんです!

single-frame modelと比べると、生成される画像の一貫性が非常に高いのが特徴です。

しかし、生成速度が遅く創造性も少し低め。さらに、生成できる画像も16個(16フレーム)に限定されてしまうというデメリットもあります。

multi-frame modelは、最近話題のToonCrafterのベースとなっているVideoCrafterのモデルを参考にしているそうです。

[VideoCrafter]

ちなみに、VAEはアニメ生成用に調整されたToonCrafter のものそのままを使っているとのこと。DiTベースではないので、動画生成が遅いのも納得ですね。

コラム:

  • VAEとは? 画像を圧縮・復元するAIモデルです。PaintsUndoでは、VAEを使って画像の情報を効率的に処理しています。画像生成では生成される画像の色味とかにも影響しますね!

でも、安心してください!

VideoCrafterのモデルを参考にしているとはいえ、ニューラルネットワークの構造は大幅に変更され、トレーニングコード推論コード完全にゼロから実装し直されているんです。

つまり、multi-frame modelは、かなりオリジナルの新しいAIモデルということなんです!

5.2 モデルの併用とその利点

PaintsUndoは、single-frame modelとmulti-frame modelという2つのモデルを巧みに組み合わせて、イラストの描画過程を再現しているんです。

まず、single-frame modelを使って5~7個のキーフレームを生成します。

キーフレームって、アニメーションでいうところの重要なポイントとなるフレームのことなんです。

そして、multi-frame modelを使って、これらのキーフレーム間の作業を補間していくんです。

2つのモデルが協力することで、より自然滑らかな描画過程を再現できるんですね。

5.3 三つの生成モードとその特徴

こちらはあくまでもプログラミングのDiffusersライブラリーというものを使った場合においてなんですが、temporal_window_typeというパラメータを調整することで、3つの生成モードを使い分けることができるんです。

それぞれ、どんな特徴があるのか見ていきましょう!

1.  prv mode: 前のフレームとの空間的な一貫性を重視して画像(フレーム)を生成します。
2.  first mode: 一番最初のフレームとの空間的な一貫性を重視して画像(フレーム)を生成します。
3.  roll mode: 前のフレームと次のフレームの空間的な一貫性を重視して画像(フレーム)を生成します。

「どれを選べばいいの?」って迷っちゃいますよね。

roll modeが一番品質の良い動画を生成できるそうですが、その分VRAMの消費量も多くなってしまうんです。

どのモードを使うかは、お手持ちの計算リソースと相談しながら決めるのが良さそうですね。

ちなみに、これらのモードを有効にするとGPUメモリの消費量が増えるため、デフォルトでは全部オフになっているので注意してくださいね!

一応、プログラミングから使わない場合でも、「Paints-UNDO\diffusers_vdm\attention.py"」のファイルのこの部分を編集するとモードが切り替わるのだと思います!

5.4 CLIP-Vision技術の活用

PaintsUndoには、CLIP-Visionという技術も使われているんです。

CLIP-Visionは、どんなアスペクト比の画像でもCLIPで認識できる技術なんですって!

「アスペクト比って?」と思った方もいるかもしれませんね。

アスペクト比とは、画像の横幅と縦幅の比率のことです。

CLIP-Visionは、位置埋め込みを補間することで、任意のアスペクト比に対応できる**Clip Vision (ViT/H)**を使っているそうです。

IP-Adapterでも使われていたよね!」という方もいるかもしれませんね。

コラム:

  • IP-Adapterとは? ControlNetの機能を拡張するプラグインです。PaintsUndoの開発者であるlllyasvielさんは、ControlNetの発明者でもあります。

CLIP-Visionのおかげで、PaintsUndoは様々なアスペクト比の画像に対応できるようになっているんですね!

6. 関連技術との比較

6.1 ToonCrafterとの機能比較

コラムのような感じなのですが、少し前に有名になっていたので、PaintsUndoと同じ技術が使われているAIアニメーションツール「ToonCrafter」についても少し解説しておきます。

[画像:ToonCrafterの出力例]

ToonCrafterは、イラストに命を吹き込むようにアニメーションを生成してくれるツールなんです。

まるでイラストが動き出したような、生き生きとしたアニメーションを簡単に作れちゃうんです!

PaintsUndoとToonCrafterは、どちらもイラスト制作をサポートしてくれるAIツールですが、それぞれ得意な分野が違います。

PaintsUndoは、イラストの描画過程を再現することに特化しているのに対し、ToonCrafterは、イラストをアニメーション化することに長けているんです。

「ToonCrafterも使ってみたい!」と思った方は、以下のリンクから試してみてくださいね。

Hugging Face Space: https://huggingface.co/spaces/Doubiiu/tooncrafter

GitHub リポジトリ: https://github.com/ToonCrafter/ToonCrafter

6.2 他のAIイラストツールとの違い

PaintsUndoは、他のAIイラストツールとは一線を画す革新的な機能を備えています。

従来のAIイラストツールは、手描き、線画、彩色といった過程をそれぞれ別の技術で行っていました。

しかし、PaintsUndoは、これらの過程を一括で、しかも巻き戻し自由に行うことができるんです!

まるでイラスト制作の時間を操るかのような、そんな体験ができるのはPaintsUndoだけなんです!

次回予告!

今回は、PaintsUndoの概要や開発者のご紹介、技術的な詳細など、基本的な情報を中心にお届けしました。

「もっと詳しく知りたい!」「実際に使ってみたい!」という方のために、次回の記事では、

  • PaintsUndoの使い方

  • WGoogle Colabでの使い方

  • インストール方法

  • 実践的な使い方

などを詳しく解説していきますね!

次回もお楽しみに!


この記事が参加している募集

#AIとやってみた

28,976件

この記事が気に入ったらサポートをしてみませんか?