見出し画像

Resolving References in Visually-Grounded Dialogue via Text Generation

1 本研究の学術的背景には、視覚-言語モデル(VLM)が単純なテキストクエリに基づく画像検索に有効であることが示されている一方、会話入力に基づいたテキスト-画像の検索はまだ困難だという問題があります。核心となる学術的な問いは、「視覚に基づく対話での言及解決にVLMを使用したい場合、これらのモデルの議論処理能力をどのように強化すべきか」という点です。

2 本研究の目的は、言及の言語的文脈で見つかった同一指示(coreferential)情報を要約する確定的な説明を生成するために因果関係の大規模言語モデル(LLM)を微調整することです。そして、生成された説明に基づいて、事前学習されたVLMを使用して言及を識別します。これはゼロショット学習、つまり事前の事例なしに実行されます。本研究の学術的独自性と創造性は、会話からの言及の説明を生成し、それに基づいてVLMを使用して言及を識別するという新しいアプローチを提案している点にあります。

3 本研究は、視覚に基づく対話での言及解決における困難さに着目して進められました。具体的には、視覚的な対話において人々が参照するプロセスは協調的なものであり、参照物の成功的な識別については共有の責任があるとされてきました。

4 本研究では、LLMを微調整して参照物の説明を生成するモデルを開発し、これを用いてVLMがゼロショットで参照物を識別することができることを示しました。さらに、より大きな文脈窓を基にした参照物の説明を使用することがさらなる成果をもたらす可能性があることも見つけました。

5 手動でアノテーションを付けた視覚に基づく対話のデータセットを用いて、提案したアプローチを評価しました。これにより、提案したアプローチが比較対象とした基準を平均的に上回る性能を達成したことが確認されています。

この記事が気に入ったらサポートをしてみませんか?