Command Palette
Search for a command to run...

摘要
科学发现越来越依赖于基于信息密集型科学数据和领域专业知识的复杂多模态推理。借助专家级科学基准测试的支持,多模态大语言模型(MLLMs)有望在实际工作流程中显著提升这一发现过程。然而,当前的科学基准测试大多集中在评估MLLMs的知识理解能力上,导致对其感知和推理能力的评估不足。为了解决这一问题,我们提出了科学家首次考试(Scientists' First Exam, SFE)基准测试,旨在通过三个相互关联的层次来评估MLLMs的科学认知能力:科学信号感知、科学属性理解、科学比较推理。具体而言,SFE包含830个经过专家验证的视觉问答对(VQA),涵盖三种问题类型,涉及五个高价值学科中的66个多模态任务。广泛的实验表明,当前最先进的GPT-3和InternVL-3在SFE上的表现仅为34.08%和26.52%,这突显了MLLMs在科学领域仍有很大的改进空间。我们希望SFE所获得的见解能够促进人工智能增强型科学发现的进一步发展。