arxiv.org/abs/2310.11441
SAM によるセグメント結果を GPT-4V に入力する Set-of-Mark (SoM) を提案。SoM により視覚グラウンディングにおける RefCOCOg で優れた性能を示した。
スクリーンショット_2023-10-18_12.14.16

この記事が気に入ったらサポートをしてみませんか?