人気の記事一覧
【論文瞬読】InternVL 1.5: オープンソースのマルチモーダル言語モデルの新たな地平
【論文瞬読】マルチモーダル言語モデルの構築方法を徹底分析!Apple社の研究チームが重要な知見を公開
Gemini APIを利用してインタラクティブなAIプログラムを作成
Eyes Can Deceive: Benchmarking Counterfactual Reasoning Abilities of Multi-modal Large Language Models
gpt-4-visionとTTS の APIを用いて動画に自動でナレーション音声を作成
MM-VID: GPT-4V(ision) を用いてビデオの理解を促進するシステム
MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding
AutoBreach: Universal and Adaptive Jailbreaking with Efficient Wordplay-Guided Optimization
Hallucination of Multimodal Large Language Models: A Survey
MileBench: Benchmarking MLLMs in Long Context
HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models
RegionBLIP: A Unified Multi-modal Pre-training Framework for Holistic and Regional Comprehension