![見出し画像](https://assets.st-note.com/production/uploads/images/101036861/rectangle_large_type_2_787b2c94f59588d3160d3e1b643b1c5b.png?width=800)
ChatGPT(GPT4)に漫画を直接描かせてみる
Twitterでやばいネタが流れてきた
どわ~!GPT-4汎用知能論文でGPT-4からSVGで漫画一発出しする例!!ちゃんとコマ割ってフキダシ書いて台詞書いてる!!これにStable Diffusionを接続したらどうなるか考えよう pic.twitter.com/1H1Ggzr0WK
— うみゆき@AI研究 (@umiyuki_ai) March 23, 2023
SVG!そういうのもあるのか
早速GPT4でやってみた。でも僕のChatGPTのGPT4はまだ8Kトークンまでしか対応してなさそうなのでへぼいのご愛嬌
女の子がお化けと出会って仲良くなるグラフィックノベルをSVGで1ページ分書いて下さい。お化けの名前は「五反田」で、語尾に「ごた」と言います
すると、まずは漫画の内容っぽいのが出てくる
SVG形式で書くことはできませんが、シーンと対話のアイデアを提供することができます。以下にグラフィックノベルの1ページ分のストーリーを記載します。あなたがそのアイデアを元にSVGでイラストを作成することができます。
シーン1: 夜の公園 女の子(小夏)は、夜の公園で遊んでいます。突然、奇妙な形をしたお化け(五反田)が現れます。
小夏:「うわぁ!お化けだ!」
五反田:「ごた!僕は五反田だよごた。怖がらないでほしいなごた。」
シーン2: お化けとの会話 小夏は最初は怖がっていたが、五反田が優しそうだと感じ始めます。
小夏:「あなたはどこから来たの?」
五反田:「僕はこの公園に住んでるんだごた。人間と仲良くなりたかったんだけど、みんな僕を見ると逃げちゃうんだごた。」
シーン3: 仲良くなる 小夏は五反田との会話を楽しみ始め、二人はだんだん仲良くなります。
小夏:「私も友達がいなくて寂しいんだ。でも、五反田君とは仲良くなれそうだね!」
五反田:「そうだねごた。僕たち、これから一緒に遊ぼうねごた!」
このストーリーを元に、SVG形式でグラフィックノベルを作成することができます。このシーンと対話を組み合わせて、素晴らしい1ページのグラフィックノベルを作成してください。
出てきた。
英語でSVGにしろと言ってみる
write svg code
こうなった
![](https://assets.st-note.com/img/1679631079469-cyP7TVom4G.png?width=800)
「あんさん無茶言いなさんな」と言いつつも書いてくれる。
このコードを実際にブラウザで表示するとこうなる。
![](https://assets.st-note.com/img/1679631171278-CS2zOJggU9.png?width=800)
漫画というものがどういうものなのか理解し始めている!!!!
これはアツい
何度か繰り返して色々なバージョンができた。
![](https://assets.st-note.com/img/1679631258134-5jYQmPmyCF.png?width=800)
![](https://assets.st-note.com/img/1679631278874-TClV6KQB0S.png?width=800)
さて、我々は今、何を見せられているのだろうか。
これが意味するところは、GPTをうまくファインチューニングすれば、GPTが漫画の既存パターンを学習し、小回りから吹き出しの位置、大きさ、場合によってはセリフの内容までGPTが作り出すことができるということである。
そのためには、既存の漫画のパターンを学習するためのデータセットを作る必要がある。
僕は今、複数のプロの漫画家・編集者の協力を得て、漫画のデータ化を急ピッチで進めている。実際にAIが漫画のリズムを理解するためには最低限どのくらいの漫画のデータ(ページ数?)が必要なのか、まだ明らかではない。
だが、おそらく何億枚も必要ないはずだ。
むしろ、色々な漫画家のデータを学習させて平均化させるよりは、誰か特定の漫画家の特定の漫画を10巻程度学習させるくらいで十分ではないかという気がする。
ゲンロン総会で発表したように、僕はこれからマンガAIという新プロジェクトを始めるつもりだ。
これは漫画制作にAIを全面的に適用し、漫画制作の方法を根底から変えられないかというテーマに挑むプロジェクトである。
また、GPT4だけでなく、より少ないVRAM(3GB!!)でファインチューニングしてGPT並みの性能が出るRNNモデルが登場していた。
漫画のコマ割りの流れを学習させるためにはこれで十分かもしれない。
これはスーパーコンピュータと間ではいかなくても、ABCIにあるA100 40GBx4のノードでも学習できそうだ(書いてないけどA100 40GBx8でトレーニング速度が108K/秒なのでそんなに爆発的に時間がかかるわけでもなさそう)。さらに、RWKV-LMにはLoRAもあるのでこちらの方がより早いかもしれない。
漫画のコマ割りとセリフの位置を独自の短い言語にして、それをファインチューニングで大規模言語モデルに学習させて使うとうまくいく可能性は十分ある。
とはいえ、データを集める作業は非常に手間がかかりそうだ。
流石にちょっとアルバイト的に手伝ってくれる人が欲しくなってきた。業務内容はごく小さいプログラムを書いたり(例えばデータセットを揃えてくれるとか)、RPAツールを操作して漫画のページをPNG化する作業を技研ベースでやったりするような副業的な仕事で、そこまで高度なスキルは必要としていない。時給ではなく仕事一つにつきいくら、という形になると思う。平日か休日の昼間に技研ベースで作業できるのが条件になる。
もしご興味があれば技研バーまで来て下さい。