5 个月前

建立构建严谨能动性基准的最佳实践

Yuxuan Zhu Tengjun Jin Yada Pruksachatkun Andy Zhang Shu Liu Sasha Cui Sayash Kapoor Shayne Longpreet al

摘要

基准测试对于定量追踪人工智能（AI）的进步至关重要。随着AI代理能力的不断提高，研究人员和实践者引入了代理基准测试来评估代理在复杂现实任务中的表现。这些基准测试通常通过特定的奖励设计来衡量任务结果，从而评估代理的能力。然而，我们发现许多代理基准测试在任务设置或奖励设计方面存在问题。例如，SWE-bench Verified 使用的测试案例不足，而 TAU-bench 将空响应视为成功。这些问题可能导致对代理性能的低估或高估，相对误差高达100%。为了使代理评估更加严谨，我们提出了《代理基准检查清单》（Agentic Benchmark Checklist, ABC），这是一套从我们的基准构建经验、最佳实践调查以及先前报告的问题中综合提炼出的指导原则。当应用于具有特别复杂评估设计的 CVE-Bench 时，ABC 能够将性能高估减少33%。