arxiv.org/abs/2308.16463
背景)既存 LVLM は複数画像間で一貫した対話を実現できない
提案)複数画像を考慮する指示追従モデル SparklesChat、GPT-4 を用いた評価ベンチマーク SparklesEval を提案
スクリーンショット_2023-10-02_12.20.10

この記事が気に入ったらサポートをしてみませんか?