Command Palette

Search for a command to run...

5 个月前

建立构建严谨能动性基准的最佳实践

Yuxuan Zhu Tengjun Jin Yada Pruksachatkun Andy Zhang Shu Liu Sasha Cui Sayash Kapoor Shayne Longpreet al

建立构建严谨能动性基准的最佳实践

摘要

基准测试对于定量追踪人工智能(AI)的进步至关重要。随着AI代理能力的不断提高,研究人员和实践者引入了代理基准测试来评估代理在复杂现实任务中的表现。这些基准测试通常通过特定的奖励设计来衡量任务结果,从而评估代理的能力。然而,我们发现许多代理基准测试在任务设置或奖励设计方面存在问题。例如,SWE-bench Verified 使用的测试案例不足,而 TAU-bench 将空响应视为成功。这些问题可能导致对代理性能的低估或高估,相对误差高达100%。为了使代理评估更加严谨,我们提出了《代理基准检查清单》(Agentic Benchmark Checklist, ABC),这是一套从我们的基准构建经验、最佳实践调查以及先前报告的问题中综合提炼出的指导原则。当应用于具有特别复杂评估设计的 CVE-Bench 时,ABC 能够将性能高估减少33%。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
建立构建严谨能动性基准的最佳实践 | 论文 | HyperAI超神经