GPT-4oで漫画解析: 画像からシーンやセリフの抽出をしよう
GPT-4oのマルチモーダル能力を使って漫画を分析したい!
GPT-4oは、従来のテキスト解析だけでなく、画像の解析も可能なマルチモーダルAIです。この新機能を活用し、以前からやりたかった漫画の解析に挑戦しました。
漫画解析の動機
漫画の制作には、コマ割り、セリフ、キャラクターの配置、カメラの位置など、多くの要素が関わります。名作漫画からこれらの要素を学ぶことは非常に有益ですが、膨大な量のデータを扱うため、一人で行うのは非常に困難です。そこで、GPT-4oを使って大量の漫画を解析し、その成果を活用したいと考えました。
漫画解析の課題
漫画の解析にはいくつかの課題があります。登場人物が入り乱れ、セリフがどれが誰のものか分かりづらいことが多く、擬音も頻繁に登場します。これらの要素が情報量を増やし、解析を難しくしています。
GPT-4oによる解析の実施
今回、GPT-4oを使って日本の漫画を解析してみました。具体的には、右上から左下へ読むという日本の漫画特有の読み方を考慮しつつ、各コマのセリフと描写を解析しました。
お題「おやすみプンプン」10巻
お題はおやすみプンプンにしました。理由は、好きだからです。笑
シーンとしてはハードル低く話者がほぼ一人の部分でありつつ、カメラアングルが多く切り替わり、それでシーンの雰囲気を伝えるようなところを切り出しました。
(リンクはアフィじゃありません。でも気になった方は是非読んでください!こんな衝撃的な漫画はそうそうありません…)
コマごとのト書きとセリフ起こし
では実際にコマごとの情報を抽出します。プロンプトはこちら。
これは、日本の漫画のページです。右上から左下に向かって読みます。コマごとにト書きとセリフを書き起こしてください。眼鏡の男性はペガサスです。
返答はこちらです
セリフ解析: セリフはまあまあ精緻に取得できました。まだ誰のセリフかを明確にするための工夫が必要そうですが、思ったより良好な結果を得られました。
コマごとの描写: 各コマの描写についても、かなり詳細に解析できました。キャラクターの配置や動き、背景などの情報を正確に捉えることができました。
また、別でやった時には背景の「ビッ」という擬音も書き起こしてくれていました。これはいいですね。
解析
では具体的にどのコマにどのような工夫がされているか解析してみましょう。
プロンプト
上記のコマ割りについて何が効果的なのかを分析をし、評価をしてください
回答
評価
分析内容については、やや大げさで的外れな部分もありましたが、全体としては「それっぽい」結果が得られました。
ただ、やはりシュールなシーンであるために各シーンの効果などはちょっと的はずれです。
たとえばこの壮大な話が街のミュージックフェスタの小さな舞台で行われていること、観客は誰も見ていないことはシーンの印象としては必ず受け取るべきですが、ペガサス(眼鏡の男性)をカリスマだと勘違いしています(ある意味カリスマで僕は好きなんですけどね。グッド・ヴァイブレーション)
可能性を感じた点
今回の解析を通じて、GPT-4oには大きな可能性を感じました。特に、漫画のセリフや描写を詳細に解析する能力は非常に有益です。今後さらに精度を高め、より正確な分析が可能になることを期待しています。
漫画の解析にはまだまだ改善の余地がありますが、GPT-4oを活用することで、大量のデータを効率的に扱い、名作から学ぶことができるようになるでしょう。この技術の進化により、漫画制作や研究がさらに発展することを楽しみにしています。
グッドグッドグッド…ヴァイブレーション…!
この記事が気に入ったらサポートをしてみませんか?