Visual Reasoningデータセット紹介

自己紹介

こんにちは!産総研人工知能研究センター、コンピュータビジョン研究チームのQiu Yueと申します。コンピュータビジョンと自然言語処理を融合した研究(Vision and Language)に特に興味を持っています。

Vision and Language系の論文では、Visual Reasoningという言葉がよく使われています。CVPR 2022ではVisual Reasoningの論文セッションもありました。しかし、Visual Reasoningは何を指しているのかわからなかったので、今年(2022年)の3月から少しずつVisual Reasoningに関するサーベイを始めました。結論として、筆者の心の中ではいまだに「Visual Reasoningとは」はまだはっきりわかりませんが、ここでVisual Reasoningを対象として検討している研究をピックアップして紹介したいと思います。

Visual Reasoningとは

近年、CNN などの手法が物体認識、検出、セマンティックセグメンテーションなどを代表としたクラシックなCVタスクで成功を遂げた以来、物体の種別認識のみならず、認識を行った上で様々なより複雑な問題を解いていくような研究も検討されてきました。ウィキペディアでVisual Reasoningを“特定な結論をたどり着くために、オブジェクトの意味理解を操作するプロセス”として定義されています。上記と類似するように、現在論文中Visual Reasoningと主張しているタスクでは、観測対象(例:画像、ビデオ)に含まれる視覚要素(例:物体、物体属性)をマニピュレーションし、特定な目的(例:自然言語の質問を回答するなど)を達成しようとしています。また、Visual Reasoningの論文で検討されているreasoning能力はcompositional、causal、abductive、abstract、commonsense、spatial、temporalなどを含め多様になります。Visual Reasoningで検討されている課題をもう少し明示化するため、論文の中でメインで検討されているreasoning能力ごとに論文例を挙げて紹介していきます。

Compositional Reasoning

CLEVR Dataset 

CLEVRデータセット [Johnson+, CVPR'17]

2017年でJohnsonらにより提案されたCLEVRデータセットはCompositional Language and Elementary Visual Reasoningを検討する論文の代表例になります。CLEVRデータセットは広く使われているVisual Question Answering (VQA)データセットの一つになります。CLEVRデータセットは、上記の図で示すようなBlenderで作成したCG Sceneの画像、そして画像内容をベースとした自然言語の質問から構成されています。質問を解くために、compositional languageの理解(例:階層化された言語の理解)、Sceneの中の物体の属性や位置関係の認識、物体の数の計算、数や属性の比較、ロジック計算などが必要となります。CLEVRデータセットは一見簡単そうかもしれませんが、CLEVRをターゲットに設定されていない一般化したVQAの手法では高い精度を得るのが困難です。

GQA dataset

GQA dataset [Hudson+, CVPR'19]

上記のCLEVRデータセットは単純な幾何形状が複数個置かれているCGシーンをベースとしています。Compositional reasoningを評価できる一方、実際にCLEVRデータセットで高い精度を得られる手法は、実環境画像に対してどれくらい使えるかは不明です。そこで、2019年でHudsonらがMS COCOデータセットVisual Genomeでアノテーションされているscene graphをベースに実環境画像VQAデータセットGQAを公開しました。GQAデータセットはCLEVRデータセットと同様にCompositional 言語を理解する能力を必要とされる上、実環境における人物の認識、人物の属性や関係の認識などが必要になります。

実環境画像をベースとしたVQAデータセットの中には、GQAデータセットと同じくMS COCO画像をベースとしたVQAv1VQAv2データセットなどもあります。VQAv1とVQAv2に含まれる質問がCrowd-sourcingにより人間が作成されたため、質問には様々なhuman-centricバイアスが含まれる一方、モデルの詳細的な評価が行いにくい場合があります。GQAデータセットはscene graphをベースに作成されており、human-centricバイアスや大きく緩和されるほか、各モデルの詳細的な分析が行いやすい特徴があります。最近のCVPRやECCVではGQAの方が多く使われている印象があります。

Causal Reasoning

CLEVRER dataset

CLEVRER dataset [Yi+, ICLR'20]

CLEVRERデータセットは2020Yiらにより提案されたCLEVRをベースとしたVideo Question Answering (Video QA)データセットになります。CLEVRERではcausal reasoning (因果推理)をメインで検討しています。
具体的に、CLEVRERデータセットは、複数の物体が平面状に配置され、物体間のcollisionがビデオで記録されています。発生した物体間のcollisionの詳細を判断するdescriptive問題、物体の状態変化の原因を分析するexplanatory問題、次発生してしまいそうなcollision eventを推定するpredictive問題、あるcollision eventが発生しなかったらどうなるを予測するcounterfactual問題、といった4種類の問題が設けられています。
CLEVRERを回答するためには、ビデオから物体の認識を行った上で、collision eventの認識、collision eventに関わる因果推理が必要となります。CLEVRERデータセットもCLEVRデータセットと類似するように、一見視覚側の認識がシンプルですが、通常のVideo QA手法はCLEVRERにおいてチャンスレベルの程度しか得られませんでした。

Abstract Reasoning

RAVEN dataset

RAVEN dataset [Zhang+, CVPR'19]

Raven’s Progressive Matrices(RPM)がIQをテストする際によく使われています。RPMは特にabstract reasoning能力を評価しています。AI手法のabstract reasoning能力を評価するために、2019年にZhangらがRPMテストを元に12万枚の画像と7万RPMから構成されるデータセットRAVENを提案しました。
上図で示しているように、RAVENデータセットの一つのインスタンスは、複数の四角いブロックから構成されています。1つのブロックの中では複数の形状(例:三角形)が含まれています。そして、複数のブロックの中に含まれる形状は階層的に関係しています。そういった関係性を満たしたブロックを当てはめていたら正解とカウントされます。RAVENを正しく解くためには、一個一個の形状の認識や、形状の空間分布上の関係性を階層的に認識することが重要です。humanが学習しなくてもRAVENで高い精度を得られる一方、AI手法は大量な学習データを用いて学習してもhuman精度にはいまだに及びません。少ないデータで学習し、RAVENのようなabstract reasoningデータセットで高い精度を得られる手法の検討が興味深いです。

Abductive Reasoning

Sherlock dataset

Sherlock dataset [Hessel+, ECCV'22]

humanが観測されたシーン (例:画像、ビデオなど)から、画像内容に関して常識などに基づいたabductive reasoningができます。例えば、humanが車が道路に横倒れているシーンから、車事故が発生したと推測したり、道路標識が全て英語と書かれている画像を見たら、画像が英語圏の国で撮影されたと判断したりしています。このようなabductive reasoningが行えるAI手法も期待されています。
上記のようなabductive reasoningを検討するため、Hesselらが2022年にSherlockデータセットを提案しました。Sherlockデータセットはcrowd-sourcingにより集められています。Sherlockで高精度を実現するには、画像内容と言語内容の理解のみならず、問題を解く背後にある膨大な知識や、高レベルなabductive reasoning能力なども必要となります。Sherlockデータセットは提案して間も無くなので、今後どのようにデータセットが拡張されていくかに関して期待しています。

Visual Commonsense Reasoning

VCR dataset

VCR dataset [Zellers, CVPR'19]

人間が画像やビデオから、人物を認識した上で、様々な高レベルなcognitionとcommonsense reasoningを行う。例えば、人間が上記らの画像から、レストランで食事している人やの姿勢や意図の推定や、道路で座っている人の職業推定などができます。
このように、画像から高レベルなcognitionやcommonsense reasoningをAIで学習・評価可能にするため、Zellersらが2019年にVisual Commonsense Reasoning(VCR)タスクとデータセットを提案しました。VCRデータセットは映画から画像を収集し、humanにより映画画像に関する質問、その質問を回答する際の根拠などをアノテーションしました。VCR データセットはVQAv1やVQAv2データセットなどと比べ、特にcommonsense reasoningなどの高レベル認識能力をターゲットとしています。

終わりに

こちらのノートで、Visual ReasoningもしくはVisual Reasoningの重要な一部と見られる部分を検討する論文をいくつかピックアップして紹介しました。こちらで紹介している論文の中では、まだまだ難しいとされるタスクが多くあります。今後AIが実環境で様々な複雑な問題を解いていくためには、新たなVisual Reasoningタスクやデータセットの提案や限られたデータセットでReasoningをこなせる手法の研究が重要であると感じています。


この記事が気に入ったらサポートをしてみませんか?