人気の記事一覧

PhD: A Prompted Visual Hallucination Evaluation Dataset

3か月前

OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM

4か月前

arxiv.org/abs/2308.16890 背景)会話スキル・視覚物語生成能力について精緻な LVLM 評価研究が少ない 提案)LVLM 能力を総合評価すべく 27 サブタスクをカバーする視覚対話データ TouchStone を提案し LLM による評価を実施

8か月前

arxiv.org/abs/2308.16463 背景)既存 LVLM は複数画像間で一貫した対話を実現できない 提案)複数画像を考慮する指示追従モデル SparklesChat、GPT-4 を用いた評価ベンチマーク SparklesEval を提案

8か月前