GPT-4oで漫画解析: 画像からシーンやセリフの抽出をしよう

2024年5月14日 07:30

GPT-4oのマルチモーダル能力を使って漫画を分析したい！

GPT-4oは、従来のテキスト解析だけでなく、画像の解析も可能なマルチモーダルAIです。この新機能を活用し、以前からやりたかった漫画の解析に挑戦しました。

漫画解析の動機

漫画の制作には、コマ割り、セリフ、キャラクターの配置、カメラの位置など、多くの要素が関わります。名作漫画からこれらの要素を学ぶことは非常に有益ですが、膨大な量のデータを扱うため、一人で行うのは非常に困難です。そこで、GPT-4oを使って大量の漫画を解析し、その成果を活用したいと考えました。

漫画解析の課題

漫画の解析にはいくつかの課題があります。登場人物が入り乱れ、セリフがどれが誰のものか分かりづらいことが多く、擬音も頻繁に登場します。これらの要素が情報量を増やし、解析を難しくしています。

GPT-4oによる解析の実施

今回、GPT-4oを使って日本の漫画を解析してみました。具体的には、右上から左下へ読むという日本の漫画特有の読み方を考慮しつつ、各コマのセリフと描写を解析しました。

お題「おやすみプンプン」10巻

お題はおやすみプンプンにしました。理由は、好きだからです。笑
シーンとしてはハードル低く話者がほぼ一人の部分でありつつ、カメラアングルが多く切り替わり、それでシーンの雰囲気を伝えるようなところを切り出しました。
(リンクはアフィじゃありません。でも気になった方は是非読んでください！こんな衝撃的な漫画はそうそうありません…)

コマごとのト書きとセリフ起こし

では実際にコマごとの情報を抽出します。プロンプトはこちら。

これは、日本の漫画のページです。右上から左下に向かって読みます。コマごとにト書きとセリフを書き起こしてください。眼鏡の男性はペガサスです。

返答はこちらです

### ページ 1

#### コマ 1
**ト書き**
- 眼鏡の男性（ペガサス）がマイクを持っている。

**セリフ**
- 僕が独自に研究している「超ひも理論の応用により、不協和音を調和させる旋律を導き出すことが出来た訳です...

#### コマ 2
**ト書き**
- ペガサスが片手を上げ、力強く話している。

**セリフ**
- アカシックレコードに向けたこの演奏はひと角を担うと同時に、約束の日の回避に不可欠である!!
- そして7月7日、新世界の始まりをラヴィー達と語り合いたい!!
- 君達は出来るッ!! 僕は君達を圧倒的に評価しているッ!!
- 世界はもっと美しくなれるッ!!

### ページ 2

#### コマ 1
**ト書き**
- ペガサスが話しかけると、男性が手を挙げて返事をしている。

**セリフ**
- ペガサス: もらえますか？
- 男性: あのーすみません。

#### コマ 2
**ト書き**
- ペガサスがマイクを持って、男性に話しかけている。

**セリフ**
- 演奏始めてもらえますか？

#### コマ 3
**ト書き**
- ペガサスがステージで他の人たちに話しかけている。

**セリフ**
- さあ、十二番階の魔法戦士達よ...
- 君達は今日この結果の時のために集められたばねー奴だけだ!! 僕と共にビジョンになろうじゃないか!!

#### コマ 4
**ト書き**
- 観客がステージを見ている。

**セリフ**
- 我々のグッドバイブレーションを宇宙へ...!!

セリフ解析: セリフはまあまあ精緻に取得できました。まだ誰のセリフかを明確にするための工夫が必要そうですが、思ったより良好な結果を得られました。
コマごとの描写: 各コマの描写についても、かなり詳細に解析できました。キャラクターの配置や動き、背景などの情報を正確に捉えることができました。

また、別でやった時には背景の「ビッ」という擬音も書き起こしてくれていました。これはいいですね。

解析

では具体的にどのコマにどのような工夫がされているか解析してみましょう。

プロンプト

上記のコマ割りについて何が効果的なのかを分析をし、評価をしてください

回答

### コマ割りの効果的な点と評価

#### ページ 1

##### コマ 1
- **視点の集中:** 近距離からのクローズアップショットで、ペガサスの表情とジェスチャーに視点が集中します。これは彼の情熱と信念を強調しています。
- **セリフの配置:** セリフがキャラクターの顔周りに配置され、視線が自然とペガサスの顔に向かいます。これにより、彼の言葉の重みが増します。

##### コマ 2
- **動きの表現:** ペガサスが片手を上げて話している動作が、コマ全体にダイナミズムを加えています。これにより、彼の熱意と演説の力強さが伝わります。
- **セリフの強調:** セリフがペガサスの動作に合わせて配置されており、特に「世界はもっと美しくなれるッ!!」の部分で、彼のビジョンと情熱が強調されています。

#### ページ 2

##### コマ 1
- **対話の開始:** ペガサスが観客と対話を始めるシーンで、コマの左側にいるペガサスと右側にいる観客が自然な対比を作り出しています。これにより、ペガサスのカリスマ性がさらに強調されます。
- **セリフの簡潔さ:** 短いセリフで、対話の流れがスムーズに感じられます。これにより、読者がストーリーに没入しやすくなります。

##### コマ 2
- **ペガサスの主導権:** ペガサスが再びマイクを持って話しかけるシーンで、彼が主導権を握っていることが強調されます。これは、彼のリーダーシップを示しています。

##### コマ 3
- **視点の広がり:** ステージ上のペガサスが、他のキャラクターに話しかけているシーンで、視点が広がり、観客との関係性が強調されます。これにより、彼の影響力の広がりが示されます。
- **群像効果:** 多くのキャラクターが登場することで、ペガサスの言葉が大勢に向けられていることが強調されます。これにより、彼のカリスマ性がさらに強調されます。

##### コマ 4
- **観客の反応:** 観客がステージを見ているシーンで、視点がステージから観客に切り替わることで、読者も観客の一員としてストーリーに引き込まれます。これにより、物語の臨場感が増します。
- **クライマックスの予感:** ペガサスの演説のクライマックスが近づいていることが暗示され、読者の期待感が高まります。

### 総合評価
このコマ割りは、ペガサスのカリスマ性とリーダーシップを効果的に強調するために設計されています。キャラクターの動きとセリフの配置が巧妙に連動し、視覚的にも物語的にも強いインパクトを与えています。また、読者が物語に引き込まれるような構造が取られており、非常に効果的です。

評価

分析内容については、やや大げさで的外れな部分もありましたが、全体としては「それっぽい」結果が得られました。

ただ、やはりシュールなシーンであるために各シーンの効果などはちょっと的はずれです。

たとえばこの壮大な話が街のミュージックフェスタの小さな舞台で行われていること、観客は誰も見ていないことはシーンの印象としては必ず受け取るべきですが、ペガサス(眼鏡の男性)をカリスマだと勘違いしています(ある意味カリスマで僕は好きなんですけどね。グッド・ヴァイブレーション)

可能性を感じた点

今回の解析を通じて、GPT-4oには大きな可能性を感じました。特に、漫画のセリフや描写を詳細に解析する能力は非常に有益です。今後さらに精度を高め、より正確な分析が可能になることを期待しています。

漫画の解析にはまだまだ改善の余地がありますが、GPT-4oを活用することで、大量のデータを効率的に扱い、名作から学ぶことができるようになるでしょう。この技術の進化により、漫画制作や研究がさらに発展することを楽しみにしています。

グッドグッドグッド…ヴァイブレーション…！

この記事が気に入ったらサポートをしてみませんか？