Command Palette

Search for a command to run...

6 个月前

科学家的首次测试:通过感知、理解和推理探究MLLM的认知能力

科学家的首次测试:通过感知、理解和推理探究MLLM的认知能力

摘要

科学发现越来越依赖于基于信息密集型科学数据和领域专业知识的复杂多模态推理。借助专家级科学基准测试的支持,多模态大语言模型(MLLMs)有望在实际工作流程中显著提升这一发现过程。然而,当前的科学基准测试大多集中在评估MLLMs的知识理解能力上,导致对其感知和推理能力的评估不足。为了解决这一问题,我们提出了科学家首次考试(Scientists' First Exam, SFE)基准测试,旨在通过三个相互关联的层次来评估MLLMs的科学认知能力:科学信号感知、科学属性理解、科学比较推理。具体而言,SFE包含830个经过专家验证的视觉问答对(VQA),涵盖三种问题类型,涉及五个高价值学科中的66个多模态任务。广泛的实验表明,当前最先进的GPT-3和InternVL-3在SFE上的表现仅为34.08%和26.52%,这突显了MLLMs在科学领域仍有很大的改进空间。我们希望SFE所获得的见解能够促进人工智能增强型科学发现的进一步发展。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
科学家的首次测试:通过感知、理解和推理探究MLLM的认知能力 | 论文 | HyperAI超神经