2024年5月13日、OpenAIが新しいモデルであるGPT-4oをリリースしました。
GPT-4oは、音声、視覚、テキストのリアルタイム処理が可能で、従来のモデルを大きく上回る性能を備えているとのこと。
発表したその日からChatGPT(有料版)で使えるようになっているということなので、早速自作の漫画やイラストのレビューをしてもらいました。
GPT-4oによる漫画のレビュー
そもそも漫画が読めるのか
そもそも、GPT-4oは漫画が読めるのでしょうか。
試してみました。
これはなんですか?
GPT-4oの回答
漫画のセリフを読んで、シーンを類推しているように見えます。
もっと視覚的な情報も含めて説明してもらいましょう。
どんなシーンか判別できる?
この画像を、視覚から情報を得るのが難しい人のために、詳細に説明してください。
GPT-4oの回答
視覚的な情報を読み取って、シーンを説明してくれてkます。
若干間違いはあるものの(私の画力の問題…)、登場人物のポーズや持ち物、仕草やセリフを総合的に判断して、どうゆう状況なのか読み取っているようです。
特に「長い間屋内にいて、久しぶりに外に出た」ということを、直接描写や説明をしていないのに読み取っているのはすごいですね。
変則的なコマ割りや、書き文字を理解することはできる?
この画像を、視覚から情報を得るのが難しい人のために、詳細に説明してください。
GPT-4oの回答
変則的なコマ割りや、書き文字のあるページを選んでみました。
セリフの大きさ、吹き出しの形状、登場人物の様子から、感情的なシーンであることを読み取っているのがすごいですね。
何も指示しなければ、画像を左上から右下に向かって読むようです。
日本の漫画のスタイルでは、右上から左下に読むので、指示をした方がよいかもしれません。
最初の変則コマの読み取りは、私の画力の問題で難しいのかもしれません。
最後のコマの書き文字の読み取りは難しいようですが、ある程度読めています。
セリフのない登場人物の表情を読み取れる?
この画像を、視覚から情報を得るのが難しい人のために、詳細に説明してください。
GPT-4oの回答
これまでの回答を見ていると、セリフから登場人物の感情やシーンを類推しているような気もするので、セリフ無しで表情だけで登場人物の感情を表現しているページを読ませてみました。
ページ左下の横顔の女の子の表情を「思案しているような表情」と読み取っています。
ネームは読める?
この画像を、視覚から情報を得るのが難しい人のために、詳細に説明してください。
GPT-4oの回答
これまでは(私の画力に課題はあるものの)漫画の完成原稿を読んでもらいましたが、ネームは読めるのか試してみました。
これができると、漫画家も編集者もすごく助かる気がします。
ネームでは、キャラクターの描き分けがはっきりしていなかったり、この例のように背景が描かれていなかったりして、情報の取得が難しくなるように思います。
この例のように、セリフがテキストで入っていると、どんなシーンか類推できるようです。
セリフが入っていないネームを読むことはできる?
この画像を、視覚から情報を得るのが難しい人のために、詳細に説明してください。
読者が読みやすく、強い共感を喚起するために必要な改善点を具体的かつ詳細に示してください。
GPT-4oの回答
かなり初期段階のネームを見てもらいました。
セリフがテキストで入っていないと、読み取りが困難になるようです。
しかし、読み取れるテキスト、吹き出しの形、登場人物の様子などから、どのようなシーンであるか類推しているのはすごいです。
セリフを入れれば、ネームの状態でもある程度読めるようです。
レビューはしてくれる?
この漫画の魅力、読者にとって嬉しいところ、改善ポイントをそれぞれ詳細に教えてください。
GPT-4oの回答
漫画に対してレビューをしてもらうことは可能でしょうか?
質問では、魅力、読者にとって嬉しいポイント、改善ポイントの3つの観点でレビューを依頼しています。
分類して記述するのは、もともと得意なので、うまく整理してくれているように思います。
しかし、改善点に対するアドバイスは、一般的な回答になっているような気がします。
別の例を試してみます。
この漫画の魅力、読者にとって嬉しいところ、改善ポイントをそれぞれ詳細に教えてください。
GPT-4oの回答
やはり、一般的なアドバイスに終始しているように思えます。
しかし、これまでのChatGPTの傾向から、良い・要改善の判別基準を与えれば、回答が改善するように思えます。
これはまた追って実験したいと思います。
GPT-4oによるイラストの添削
セリフ(テキスト情報)のないイラストの添削はできる?
これまでは、漫画の原稿だったので、基本的にセリフ(テキスト情報)があったのですが、テキスト情報のない1枚絵(いわゆるイラスト)の添削は可能でしょうか。
この画像の、題材、視覚的な魅力、見る人にとって何が嬉しいか、改善のためのアドバイスを詳細に教えてください。
GPT-4oの回答
文字情報があれば、それを積極的に読み取ろうとするようですが、かなり限定的な情報(つまり下手な絵)からも情報を読み取って、背景がレストランであることや、登場人物がエルフであることを示しています。
情報読み取りの精度は高いと思いますが、アドバイス部分はやはり一般的な内容に終始しているように思います。
マンガ的なモノクロ表現のイラストの添削はできる?
この画像の、題材、視覚的な魅力、見る人にとって何が嬉しいか、改善のためのアドバイスを詳細に教えてください。
GPT-4oの回答
こちらも読み取れる情報から、見る人に与える印象や魅力を表現することにはかなり長けているように見えます。
アドバイス部分は、先ほどの例と同じ項目で一般的なアドバイスに終始しているように見えますが、アドバイスが欲しい項目を明示すれば、それに従ってアドバイスをくれそうな気がします。
情報量の少ないイラストの添削はできる?
この画像の、題材、視覚的な魅力、見る人にとって何が嬉しいか、改善のためのアドバイスを詳細に教えてください。
GPT-4oの回答
描き込みが少なく、題材的にも特徴がなく、情報量が少ないイラストをどの程度読み取れるか試してみました。
登場人物の表情や、ポージーな題材ではなく、スナップ的な題材であること読み取っているのはすごいと思います。
登場人物の性別がはっきり判別できないときは、言及しないようにしているかもしれません。
背景などはかなりいい加減に描いているのですが、題材や登場人物の様子から類推しているように見えます。
アドバイス部分は一般的な内容です。
2in1のイラストを添削することはできる?
この画像の、題材、視覚的な魅力、見る人にとって何が嬉しいか、改善のためのアドバイスを詳細に教えてください。
GPT-4oの回答
1枚のイラストの中に、複数のカットが含まれているもので試してみました。
2つの題材がある場合は、それぞれを読み取れるようです。
登場人物の髪型や表情が、それぞれの登場人物の人物像を表すことがわかっているようですが、それがどのような人物像なのかについては言及されていません。
レビュー部分については改善の余地がありそうです。
AIイラストは添削できる?
この画像の、題材、視覚的な魅力、見る人にとって何が嬉しいか、より注意を引き、ポジティブな感情を与えるためのアドバイスを詳細に教えてください。
GPT-4oの回答
与える画像が生成AIによる画像であっても、情報の読み取りに問題はありませんでした。
AI画像の場合、(少なくとも私が手描きするよりは)リッチな情報量を持たせることができるので、読み取りの精度が上がるように思います。
レビュー部分はすこし細かく指示してみましたが、視覚効果によってより印象的になるようなアドバイスをしてくれました。
青空を夕暮れにしたり、背景に意味のあるオブジェクトを加えると、イラストのメッセージが変わってしまうので、こちらからどのようなメッセージを込めたいか、どのような印象を与えたいかを明示した方がよさそうです。
まとめ
GPT-4vの時点で、画像から情報の読み取りの精度はかなり高かったように思いますが、単なる情報だけでなく、画像上の情報からよりコンテクストを読み取って示せるようになっていると感じます、
漫画を読ませることについては、コマを読む順番であったり、漫画的な表現(書き文字や漫符と呼ばれる記号表現など)の読み取りに課題があるかもしれませんが、セリフ、人物の表情、コマごとの構図が定まっているネーム以上の段階であれば、詳細に読み取れるようです。
加えて、こちらから「このページではどのような印象を与えたい」とか、「読者にどんな印象を与えたいか」を明示することで、より詳細なレビューを得られる予感がします。
引き続き実験してみようと思います。
関連情報
拙著「光射すへや」
拙著「はじめとちえこの生活」
拙著「バーントシェンナとコバルトブルー」