Command Palette

Search for a command to run...

5 天前

Multi-Crit:基于多元标准遵循的多模态评判基准

Multi-Crit:基于多元标准遵循的多模态评判基准

摘要

大型多模态模型(LMMs)因其强大的指令遵循能力以及与人类偏好的一致性,正日益被用作多模态评估系统中的评判者。然而,其在遵循多样化、细粒度评估标准方面的能力仍缺乏深入探索。为此,我们提出了 Multi-Crit——一个用于评估多模态评判者在遵循多元评估标准方面能力的基准测试体系。该基准涵盖开放式生成任务与可验证推理任务,通过严谨的数据筛选流程构建,包含大量具有挑战性的响应对,并附有基于多准则的人工标注。此外,Multi-Crit 引入了三项新颖的评估指标,用于系统性地衡量模型在多元准则遵循性、准则切换灵活性以及识别准则层级偏好冲突方面的能力。对25个大型多模态模型的全面分析表明:1)专有模型在遵循多元准则方面仍存在显著困难,尤其是在开放式评估任务中表现尤为突出;2)开源模型在灵活适应多样化准则方面落后更远;3)采用整体判断信号进行批评者微调虽能增强模型的视觉定位能力,却难以推广至多元准则层级的判断任务。此外,针对推理微调、测试时扩展(test-time scaling)以及开源与专有模型之间边界一致性的进一步分析,进一步揭示了当前多模态评判者的能力极限。作为该领域的开创性研究,Multi-Crit 为构建可靠且可调控的多模态人工智能评估体系奠定了坚实基础。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供