BLINK: Multimodal Large Language Models Can See but Not Perceive

2024年4月24日 08:53

https://arxiv.org/pdf/2404.12390.pdf
下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。

Q1 何に関する論文か、詳しく説明してください。

この論文は、異なるスケールと構造を持つ複数の多モーダル大規模言語モデル（LLMs）の性能評価に関する研究を扱っています。具体的には、視覚的タスクを解決するためのモデルの能力を測定するためのBlinktestセットというベンチマークを使用して、これらのモデルがどのように機能するかを検証しています。評価されるタスクには、類似性（Similarity）、ジグソーパズル（Jigsaw）、アート（Art）、楽しさの相関（Fun.Corr.）、意味的相関（Sem.Corr.）、視覚的相関（Vis.Corr.）、多視点（Multi-view）、反射（Reflect.）、法医学（Forensic）、IQなどが含まれています。

この研究では、OpenAIのGPT-4V(ision)やGemini Proなどの商用APIベースのモデルから、OpenFlamingo-v2やMiniGPT-4-v2などのオープンソースの多モーダルLLMsまで、さまざまなモデルが比較されています。これらのモデルは、視覚エンコーダとしてCLIPを使用し、異なる言語モデルやチューニング手法を適用しています。例えば、InstructBLIPモデルは、BLIP-2に基づいて視覚的指示データでファインチューニングされ、LLaVaモデルは、より多くの推論、OCR、知識強化トレーニングデータを使用しています。

論文は、これらのモデルが単一画像入力に対してどのように機能するかだけでなく、複数画像入力を処理する能力についても分析しています。特に、GPT-4VやGemini Proなどの一部のモデルは複数画像入力を受け入れることができ、他のモデルは単一画像入力のみを受け入れます。また、画像を連結することでこれらのタスクのパフォーマンスにどのような影響があるかも検証しています。

全体的に、これらの多モーダルLLMsは中間レベルの知覚タスクで比較的良好な結果を示していますが、画像レベルのタスクではより良いパフォーマンスを、ピクセルレベルやクロップレベルのタスクでは苦戦している傾向があります。GPT-4Vは視覚的類似性やアートの認識に関して他のモデルと異なるパフォーマンスパターンを示しており、特に優れていることが指摘されています。

この研究は、多モーダルLLMsの能力を理解し、今後の改善に向けた洞察を提供することを目的としています。

Q2 研究目的とその背景について、詳しく説明してください。

この研究は、多様な視覚認識タスクを解決するための多モーダル大規模言語モデル（LLMs）の能力を評価する新しいベンチマーク「Blink」を導入しています。Blinkは、14の古典的なコンピュータビジョンタスクを、単一または複数の画像と視覚プロンプトを伴う3,807の多肢選択問題に再形式化しています。この研究が解決しようとしている問題は、現在の多モーダルLLMsが自然言語を介して解決することが困難な、視覚認識に関するタスクに対するモデルの能力を評価することです。これらのタスクには、相対的深度推定、視覚的対応、フォレンジック検出、多視点推論などが含まれ、人間は一瞬で解決できるものですが、現在のモデルにとっては大きな挑戦となっています。

この研究に取り組むことの重要性は、多モーダルLLMsが視覚的なコンテンツをどの程度正確に理解し、認識できるかを測定することで、モデルの能力を向上させるための洞察を提供する点にあります。これにより、実世界の応用においてモデルがより信頼性の高い判断を下し、人間との相互作用を改善することが期待されます。

この研究分野における以前の研究や進展との関連性は、従来のベンチマークが主に認識ベースの視覚質問応答（VQA）タスクに焦点を当てていたのに対し、Blinkは多視点推論、深度推定、反射推定など、より包括的な視覚認識能力を評価している点にあります。さらに、Blinkは「視覚的」常識問題を含むことで、領域知識を必要とせずに人間が数秒で答えられる問題を提供しています。このように、Blinkは多モーダルLLMsの視覚認識能力をより包括的かつ詳細に評価することで、この分野の進展に寄与しています。

Q3 本研究で用いた手法について、詳しく説明してください。

この研究では、多様な視覚認識タスクを評価するために「Blink」という新しいベンチマークを開発・適用しました。Blinkは、多モーダル大規模言語モデル（LLMs）の能力を測定するために様々なタスクを含んでおり、これには画像の類似性、数え上げ、深度認識、ジグソーパズル、芸術的スタイルの識別、楽しい対応関係、視覚的正確性、多視点推論、反射性の検出、法医学的検出、知能指数（IQ）テストなどが含まれます。

実験デザインでは、16種類の最新の多モーダルLLMsを評価しました。これには、MiniGPT-4-v2、OpenFlamingo-v2、InstructBLIP（7Bおよび13B）、CogVLM、LLaVA（v1、v1.5、v1.6、internLM、xtunerバージョン、モデルサイズ7B、13B、34B）、Yi-VL（6Bおよび34B）、Qwen-VL-MAX、Gemini Pro、Claude 3 Opus、GPT-4V（vision）が含まれます。

評価セットアップでは、VLMEvalKitの標準セットアップに従い、温度を0に設定し、リトライを10に設定しました。画像のリサイズは実験中に行わず、複数の画像を入力として受け入れないモデルの場合は、画像を連結して入力しました。モデルの出力から選択肢を定義済みのルールとGPT-3.5-turboを用いて抽出しました。

人間の評価プロトコルでは、Blinkの各タスクに対して2人の人間（共著者）を割り当て、平均スコアを人間のパフォーマンスとして提示しました。人間の合意スコアは80〜99%の範囲で、最低は芸術的スタイルと機能的対応、最高は相対的深度、物体の位置特定、法医学的検出でした。IQテストスコアは例外で、100のサンプルデータに対して2人の共著者がテストし、それぞれ50データを対象としています。

実験結果では、オープンソースの多モーダルLLMsの平均正解率は約35〜42%であり、ランダムな推測（38.09%）と似たレベルでした。最も熟練したオープンソースモデルであるLLaVA-v1.6-34Bは、45.05%の精度を達成しました。最先端のモデルであるGPT-4V、Gemini Pro、Claude 3 OPUSは、それぞれ51.26%、45.72%、44.11%の精度を達成しましたが、これらはランダム推測よりもわずか13.17%、7.63%、6.02%優れているに過ぎず、人間のパフォーマンスよりも大きく遅れていました。特にジグソー、意味的対応、多視点推論、物体の位置特定、相対的反射性などのタスクでは、いくつかの多モーダルLLMsはランダム推測よりも悪いパフォーマンスを示しました。

これらの結果から、多モーダルLLMsが特定のタスクで強みと弱みを持っていることが明らかになりました。空間推論、芸術スタイル、数え上げタスクでは、ランダム推測よりもはるかに優れていることが観察されました。しかし、画像レベルのタスクでは比較的うまく機能する一方で、ピクセルレベルやクロップレベルのタスクでは苦戦する傾向がありました。

Q4 本研究の成果と限界について、詳しく説明してください。

この研究に関する発見と限界を詳述すると、まず、人間は異なるオブジェクト間で同じアクションに対応するポイントを見つけることができるという点です。例えば、「Mash/Pound」という行動をする際、鍋とハンマーを比較すると、鍋の取っ手とハンマーの取っ手は両方とも持つための機能を果たすために対応するポイントになります。また、鍋の底とハンマーの頭は、他のオブジェクトを潰すために対応するポイントになります。この研究では、画像上に注釈された参照ポイント（REF）が示され、第二の画像上に複数の赤丸で囲まれたポイントが「A, B, C, D」とラベル付けされている状況で、参照ポイントに対応するポイントを選ぶタスクがあります。正しい選択は「A」ポイントAでした。

次に、オブジェクトのローカライゼーションに関して、バウンディングボックスがオブジェクトを囲む注釈付きの長方形であると定義されています。バウンディングボックスの端はオブジェクトの最も外側のピクセルに触れるべきです。与えられた画像の2つのバウンディングボックスのうち、バン（バス）をより正確に局所化し、囲んでいるのは「A」ボックスAでした。

さらに、高層ビルの数を数えるタスクでは、平らな屋上を持つ高層ビルがいくつあるかを選択する問題がありました。この場合、画像からは高層ビルかその建物群の一部か明確ではなく、また、写真の解像度や角度から屋上の形状を確定的に判断するのは困難でした。そのため、この画像に基づいて平らな屋上を持つ高層ビルの数について正確に答えることはできませんでした。正しい答えは「C」0でした。

最後に、IQテストの文脈で提供された画像例を用いて、次に示される4つの画像オプションのうち、以前の画像によって確立されたパターンやルールに従うものを選択するタスクがありました。正しい選択は「A」画像Aでしたが、GPT-4Vの予測は異なっており、「C」画像Cが正しいとされています。これは、各画像内の小さな正方形の数が1つずつ増えていくパターンに基づくものでした。

この研究の限界としては、画像の解像度や角度によっては正確な情報を把握するのが難しい点が挙げられます。また、GPT-4Vの予測が必ずしも正確であるとは限らないため、人間の判断と異なる結果になる可能性があります。さらに、画像認識タスクはコンテキストに依存するため、与えられた情報が限られている場合には誤った推論につながることもあります。

Q5 本研究で何を明らかにしたか、詳しく説明してください。

この研究では、最新の多モーダル言語モデル（LLMs）の性能を、新たに作成された「Blink」というベンチマークを用いて評価しました。Blinkは、画像を用いたさまざまなタスクを含んでおり、それによりモデルが視覚情報をどのように処理し、理解するかを詳細に分析することができます。研究では、16種類の多モーダルLLMsを評価し、それらのモデルが人間と比較してどの程度の精度でタスクを実行できるかを調査しました。

研究の知見には以下のようなものがあります：

多モーダルLLMsの性能は、一般に人間よりも低いことが明らかになりました。特に、ジグソーパズル、セマンティック対応、マルチビュー推論、オブジェクトの位置特定、相対的な反射率などのタスクでは、一部のモデルがランダムな推測よりも性能が低い場合がありました。
空間推論、アートスタイル、数え上げといったタスクでは、多モーダルLLMsがランダムな推測よりもかなり優れた性能を示しました。これは、モデルが中間レベルの知覚タスクにおいて比較的うまく機能することを示しています。
GPT-4Vのような一部のモデルは、視覚的類似性、アートスタイル、ジグソーパズルといった特定のタスクで他のモデルよりも優れた性能を発揮しました。これは、モデル間で性能に大きな差があることを示唆しています。
多画像入力を扱う際、GPT-4VとGemini Proの2つのモデルのみが複数の画像入力をサポートしていました。これは、多モーダルモデルが複数の視覚的入力を統合する能力においてまだ改善の余地があることを示しています。

これらの知見は、多モーダルLLMsの理解や応用においていくつかの重要な貢献をしています：

モデルの強みと弱みを特定することで、特定のタイプのタスクに対するモデルの改善やチューニングの方向性を提供します。
多画像入力を扱う能力の欠如は、複数の視覚的情報源を統合する新たなアプローチの開発を促します。
モデルの性能差を明らかにすることで、特定のモデルが特定のタスクに適しているかどうかを理解するのに役立ちます。
ベンチマーク「Blink」の導入により、将来の多モーダルLLMsの開発と評価の標準化が進むことが期待されます。

最終的に、この研究は、多モーダルLLMsの能力と限界をより深く理解するための基盤を築き、今後の研究の方向性を示唆するものです。

Q6 本研究で用いたデータセットを網羅的に列挙し、名前やURLなどがあればそれらも含めて詳しく説明してください。

「Blink」とは、多様な視覚的質問に答えることを目的とした、多モーダル言語モデル（LLMs）の能力を評価するためのベンチマークセットです。このベンチマークは、画像や視覚的プロンプトを含む質問を通じて、モデルの視覚的理解、推論、知識の統合能力を評価します。

Blinkのデータセットは以下の特徴を持っています：

合計3,807の質問が含まれており、それに対応する画像は7,358枚あります。
開発セットとテストセットに分けられており、それぞれ1,901と1,906の質問があります。
視覚的プロンプトを含む質問が1,946あります。
画像（領域）を選択肢として含む質問が2,747あります。
説明を含む質問が300あります。
複数の画像を含む質問が2,218あります。
- 2枚の画像を含む質問が1,149あります。
- 3枚の画像を含む質問が805あります。
- 4枚の画像を含む質問が264あります。

Blinkは、視覚的プロンプト、画像を選択肢とする問題、複数の画像を含む問題など、多様なタイプの問題を含んでおり、モデルが単一の画像だけでなく、複数の画像を比較・統合する能力も試されます。また、画像認識だけでなく、空間的推論、芸術的スタイルの識別、数え上げ、意味的対応、多視点推論、物体の位置特定、相対的反射率の識別など、より高度な認識と推論能力が求められるタスクも含まれています。

このベンチマークセットは、人間の評価者によるスコア（80-99%の合意スコア）と、さまざまな大規模多モーダルLLMsのパフォーマンスを比較するために使用されています。その中には、MiniGPT-4-v2、OpenFlamingo-v2、InstructBLIP、CogVLM、LLaVA、Yi-VL、Qwen-VL-MAX、Gemini Pro、Claude 3 Opus、GPT-4V(ision)などのモデルが含まれています。

データセットの取得元については、研究論文や公式のウェブサイトからの言及はありませんが、多くの場合、研究チームが公開している場合は、その研究チームのウェブサイトやデータセットを共有するためのプラットフォーム（例えば、Hugging FaceのDatasetsライブラリやGitHub）でアクセス可能になっています。具体的な取得方法については、論文の著者に問い合わせるか、関連するプロジェクトのウェブサイトを確認する必要があります。

7 本研究を特徴づけるキーワードを日本語で提案し、ハッシュタグとして列挙してください。（５個程度）

#多モーダルLLM
#視覚認識
 #Blinkベンチマーク
 #画像理解
 #AI性能評価

この記事が気に入ったらサポートをしてみませんか？