見出し画像

「The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)」論文備忘録:2024年には動画も対応しそう。将来的にはセンサー情報も?

2023年9月29日に、OpenAIが発表したGPT-4Vの論文The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)。発表からすでに2ヶ月半が経ち、ブーム去った感もなきにしもあらずだが、今回論文読んだので備忘録的にまとめ。

全部で166ページもあり多かったが、写真付きのプロンプトの事例が半分以上を占めていたので、非常にわかりやすかったし、読みやすかった。

LLMsからLMMsへ

今まではテキスト情報だけを入力値として扱う、大規模言語モデル(LLMs:Large language models)だったが、GPT-4Vははテキスト情報以外のマルチモーダル(画像、サブ画像、テキスト、シーンテキスト、視覚ポインターなど)を扱えるようになった(LMMs:Large multimodal moderls)。
GPT-4VのVは、visionのことを指し、画像などの視覚情報も扱えるようになったことを指す。論文にも「GPT-4V(ision)」と記載があった。

GPT-4Vがサポートする入力情報

複数の画像とテキスト情報を組み合わせて処理できる(Interleaved Image-text Pairs)

複数の画像を一気に読み込ませることもできるし、テキスト-画像-テキスト-画像のように交互にプロンプトを入力しても、処理できるようになった。


Following Text Instructions

視覚情報だけを与えて、自動的にパターン認識して、答えを出すのはまだ難しそう。

ただし、詳細なプロンプトを与えれば回答することができる。
下記例では、曖昧な質問だと「星の中にドット」というパターン認識からの回答(よく就活の筆記試験とかであるやつ)はできていない。正確には、さまざまなパターンを考えすぎてしまっていて、正解を1つに絞り込めていない


ただし、こちらに関しては、わざわざテキストで詳細なプロンプトを入力するのは直感的ではないし手間である。後述するVisual referring promptingを使えば、下記のような手書き指示を組み合わせることで正解を得ることができる。

続きは、こちらで記載しています。


この記事が参加している募集

よろしければサポートお願いします!いただいたサポートはクリエイターとしての活動費に使わせていただきます!