Command Palette

Search for a command to run...

5 个月前

SciArena:科学文献任务中基础模型的开放评估平台

SciArena:科学文献任务中基础模型的开放评估平台

摘要

我们介绍了SciArena,这是一个开放且协作的平台,用于评估基础模型在科学文献任务中的表现。与传统的科学文献理解和综合基准不同,SciArena直接吸引研究社区参与,采用类似于Chatbot Arena的评价方法,即通过社区投票对模型进行比较。通过利用集体智慧,SciArena提供了一种由社区驱动的基础模型性能评估,这些模型需要在开放性的科学任务中生成基于文献的长篇回答。目前,该平台支持23个开源和专有基础模型,并已从多个科学领域的可信研究人员那里收集了超过13,000票。我们分析了迄今为止收集的数据,确认提交的问题具有多样性,并且符合实际的文献需求;同时,参与的研究人员在评价过程中表现出强烈的自我一致性以及较高的互评者一致性。我们根据模型排名榜讨论了结果和见解。为了进一步推动构建基于模型的文献任务自动化评价系统的研究,我们发布了SciArena-Eval,这是一个基于我们收集的偏好数据的元评价基准。该基准通过将模型的两两评估与人工投票进行比较来衡量其判断答案质量的准确性。我们的实验突显了该基准面临的挑战,并强调了开发更可靠的自动化评价方法的需求。

代码仓库

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供