HyperAI超神经

摘要

大型多模态模型（LMMs）因其强大的指令遵循能力以及与人类偏好的一致性，正日益被用作多模态评估系统中的评判者。然而，其在遵循多样化、细粒度评估标准方面的能力仍缺乏深入探索。为此，我们提出了 Multi-Crit——一个用于评估多模态评判者在遵循多元评估标准方面能力的基准测试体系。该基准涵盖开放式生成任务与可验证推理任务，通过严谨的数据筛选流程构建，包含大量具有挑战性的响应对，并附有基于多准则的人工标注。此外，Multi-Crit 引入了三项新颖的评估指标，用于系统性地衡量模型在多元准则遵循性、准则切换灵活性以及识别准则层级偏好冲突方面的能力。对25个大型多模态模型的全面分析表明：1）专有模型在遵循多元准则方面仍存在显著困难，尤其是在开放式评估任务中表现尤为突出；2）开源模型在灵活适应多样化准则方面落后更远；3）采用整体判断信号进行批评者微调虽能增强模型的视觉定位能力，却难以推广至多元准则层级的判断任务。此外，针对推理微调、测试时扩展（test-time scaling）以及开源与专有模型之间边界一致性的进一步分析，进一步揭示了当前多模态评判者的能力极限。作为该领域的开创性研究，Multi-Crit 为构建可靠且可调控的多模态人工智能评估体系奠定了坚实基础。

摘要

Multi-Crit：基于多元标准遵循的多模态评判基准

Tianyi Xiong Yi Ge Ming Li Zuolong Zhang Pranav Kulkarni Kaishen Wang Qi He Zeying Zhu Chenxi Liu Ruibo Chen

摘要

用 AI 构建 AI

Hyper Newsletters

Multi-Crit：基于多元标准遵循的多模态评判基准

Tianyi Xiong Yi Ge Ming Li Zuolong Zhang Pranav Kulkarni Kaishen Wang Qi He Zeying Zhu Chenxi Liu Ruibo Chen

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

Multi-Crit：基于多元标准遵循的多模态评判基准

Tianyi Xiong Yi Ge Ming Li Zuolong Zhang Pranav Kulkarni Kaishen Wang Qi He Zeying Zhu Chenxi Liu Ruibo Chen6 more

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

Multi-Crit：基于多元标准遵循的多模态评判基准

Tianyi Xiong Yi Ge Ming Li Zuolong Zhang Pranav Kulkarni Kaishen Wang Qi He Zeying Zhu Chenxi Liu Ruibo Chen6 more

摘要

用 AI 构建 AI

Hyper Newsletters

Tianyi Xiong Yi Ge Ming Li Zuolong Zhang Pranav Kulkarni Kaishen Wang Qi He Zeying Zhu Chenxi Liu Ruibo Chen

Tianyi Xiong Yi Ge Ming Li Zuolong Zhang Pranav Kulkarni Kaishen Wang Qi He Zeying Zhu Chenxi Liu Ruibo Chen