HyperAI超神经

4 个月前

COREVQA：一种众包观察与推理蕴含的视觉问答基准

查看论文详情

Ishant Chintapatla Kazuma Choji Naaisha Agarwal Andrew Lin Hannah You Charles Duong et al

COREVQA：一种众包观察与推理蕴含的视觉问答基准

摘要

近年来，为评估视觉-语言模型（VLMs）在视觉问答（VQA）任务中的表现，已涌现出大量基准测试集和数据集，相关模型的准确率也取得了显著提升。然而，这些基准测试极少考察模型在视觉蕴含推理方面的能力，例如根据图像内容判断某个假设是否成立（即接受或反驳某一命题）。为解决这一问题，我们提出了COREVQA（Crowd Observations and Reasoning Entailment）基准，该基准包含5608对图像与人工合成的真/假陈述对，图像均源自CrowdHuman数据集，旨在针对复杂拥挤场景下的图像激发模型的视觉蕴含推理能力。实验结果表明，即使是最先进的VLMs，其准确率也低于80%，而其他模型的表现则显著更差（准确率范围为39.98%至69.95%）。这一显著的性能差距揭示了当前VLMs在处理拥挤场景中特定类型图像-问题对时，仍存在关键性的推理能力局限。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI超神经

4 个月前

COREVQA：一种众包观察与推理蕴含的视觉问答基准

查看论文详情

Ishant Chintapatla Kazuma Choji Naaisha Agarwal Andrew Lin Hannah You Charles Duong et al

COREVQA：一种众包观察与推理蕴含的视觉问答基准

摘要

近年来，为评估视觉-语言模型（VLMs）在视觉问答（VQA）任务中的表现，已涌现出大量基准测试集和数据集，相关模型的准确率也取得了显著提升。然而，这些基准测试极少考察模型在视觉蕴含推理方面的能力，例如根据图像内容判断某个假设是否成立（即接受或反驳某一命题）。为解决这一问题，我们提出了COREVQA（Crowd Observations and Reasoning Entailment）基准，该基准包含5608对图像与人工合成的真/假陈述对，图像均源自CrowdHuman数据集，旨在针对复杂拥挤场景下的图像激发模型的视觉蕴含推理能力。实验结果表明，即使是最先进的VLMs，其准确率也低于80%，而其他模型的表现则显著更差（准确率范围为39.98%至69.95%）。这一显著的性能差距揭示了当前VLMs在处理拥挤场景中特定类型图像-问题对时，仍存在关键性的推理能力局限。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供