Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models

Ikemen Mas Kot

2024年4月7日 22:34

下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。

この論文は、大規模な言語モデル（LLM）の空間的推論能力についての研究です。これまでの研究では、LLMの言語理解や様々な推論タスクでの優れた性能が示されてきましたが、空間的推論能力についてはほとんど研究されていませんでした。
本研究の目的は、LLMの空間的推論能力を向上させることです。人間の認知において、空間的推論は重要な機能であり、未知の物体や行動のメンタルイメージを作り出す能力（Mind's Eye）によって実現されます。この認知能力に着想を得て、本研究では「Visualization-of-Thought（VoT）プロンプティング」という手法を提案しています。VoTは、LLMの推論過程を可視化することで、空間的推論を促進することを目指しています。
本研究では、自然言語ナビゲーション、ビジュアルナビゲーション、ビジュアルタイリングという3つの多段階空間的推論タスクにVoTを適用しました。これらのタスクには、2Dグリッドワールド内でのナビゲーションや図形の配置など、空間的な理解や推論が必要です。実験結果は、VoTがLLMの空間的推論能力を有意に向上させることを示しており、既存のマルチモーダルな大規模言語モデル（MLLM）よりも優れていることがわかりました。
本研究で使用した手法は、VoT（Visualization-of-Thought）プロンプティングです。この手法では、LLMに視覚的なスケッチパッドを提供し、推論ステップを可視化し、次のステップに活かすことで空間的推論を促進します。この手法は、少数のデモンストレーションやテキストから画像への変換ではなく、ゼロショットのプロンプティングを採用しています。これは、LLMがテキストベースのビジュアルアートからさまざまなメンタルイメージを獲得できる能力に基づいています。
本研究によって明らかになったことは、VoTがLLMの空間的推論能力を有意に向上させることができるということです。VoTは、LLMが推論過程を可視化し、次のステップに活かすことで空間的推論を促進します。これにより、自然言語ナビゲーション、ビジュアルナビゲーション、ビジュアルタイリングといった空間的推論タスクでの性能が大幅に向上しました。また、VoTは既存のMLLMよりも優れていることも明らかになりました。この研究は、MLLMにおける空間的推論のためのメンタルイメージ生成能力の可能性を示しています。

この記事が気に入ったらサポートをしてみませんか？