Command Palette

Search for a command to run...

4 个月前

COREVQA:一种众包观察与推理蕴含的视觉问答基准

Ishant Chintapatla Kazuma Choji Naaisha Agarwal Andrew Lin Hannah You Charles Duong et al

COREVQA:一种众包观察与推理蕴含的视觉问答基准

摘要

近年来,为评估视觉-语言模型(VLMs)在视觉问答(VQA)任务中的表现,已涌现出大量基准测试集和数据集,相关模型的准确率也取得了显著提升。然而,这些基准测试极少考察模型在视觉蕴含推理方面的能力,例如根据图像内容判断某个假设是否成立(即接受或反驳某一命题)。为解决这一问题,我们提出了COREVQA(Crowd Observations and Reasoning Entailment)基准,该基准包含5608对图像与人工合成的真/假陈述对,图像均源自CrowdHuman数据集,旨在针对复杂拥挤场景下的图像激发模型的视觉蕴含推理能力。实验结果表明,即使是最先进的VLMs,其准确率也低于80%,而其他模型的表现则显著更差(准确率范围为39.98%至69.95%)。这一显著的性能差距揭示了当前VLMs在处理拥挤场景中特定类型图像-问题对时,仍存在关键性的推理能力局限。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供