在 Discord 上讨论

日期

23 天前

数据集组织

论文 URL

许可证

Other

标签

自然语言处理

GroundingME 是由清华大学联合小米和香港大学等机构于 2025 年发布的一个面向多模态大语言模型（MLLMs）的视觉指代评测数据集，相关论文成果为 GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation，旨在系统评估模型在真实复杂场景中将自然语言准确映射到视觉目标的能力，尤其关注歧义指代、复杂空间关系、小目标、遮挡以及不可指代情形下的理解与安全表现。

该数据集共包含 1,005 条评测样本，图像来源于 SA-1B 与 HR-Bench 两个高质量数据集，仅使用原始图像构建任务以避免数据污染。样本覆盖 4 个一级任务类别，分别为区分性指代（204 条，20.3%）、空间关系理解（300 条，29.9%）、受限可见性场景（300 条，29.9%）以及不可指代拒绝任务（201 条，20.0%），并进一步细分为 12 个二级子任务，整体分布均衡。数据集中共涉及 241 类真实物体，单幅图像中同类目标数量较多，目标实例通常占图像比例较小，且语言描述长度显著高于现有指代数据集，从多个维度显著提升了视觉指代任务的难度。

数据集示例

该数据集由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

在 Discord 上讨论

日期

23 天前

数据集组织

论文 URL

许可证

Other

标签

自然语言处理

GroundingME 是由清华大学联合小米和香港大学等机构于 2025 年发布的一个面向多模态大语言模型（MLLMs）的视觉指代评测数据集，相关论文成果为 GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation，旨在系统评估模型在真实复杂场景中将自然语言准确映射到视觉目标的能力，尤其关注歧义指代、复杂空间关系、小目标、遮挡以及不可指代情形下的理解与安全表现。

该数据集共包含 1,005 条评测样本，图像来源于 SA-1B 与 HR-Bench 两个高质量数据集，仅使用原始图像构建任务以避免数据污染。样本覆盖 4 个一级任务类别，分别为区分性指代（204 条，20.3%）、空间关系理解（300 条，29.9%）、受限可见性场景（300 条，29.9%）以及不可指代拒绝任务（201 条，20.0%），并进一步细分为 12 个二级子任务，整体分布均衡。数据集中共涉及 241 类真实物体，单幅图像中同类目标数量较多，目标实例通常占图像比例较小，且语言描述长度显著高于现有指代数据集，从多个维度显著提升了视觉指代任务的难度。

数据集示例

该数据集由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供