Command Palette

Search for a command to run...

5 个月前

Mind2Web 2:评估代理搜索中的代理作为评判者

Boyu Gou Zanming Huang Yuting Ning Yu Gu Michael Lin Weijian Qi Andrei Kopanev Botao Yu et al

Mind2Web 2:评估代理搜索中的代理作为评判者

摘要

代理搜索系统(如深度研究系统),其中大型语言模型自主浏览网络、综合信息并返回全面且有引用支持的答案,标志着用户与大规模网络信息互动方式的重大转变。尽管这些系统有望提高效率并减轻认知负担,但其日益增长的复杂性和开放性已经超过了现有的评估基准和方法,后者主要假设搜索时间较短且答案静态不变。在本文中,我们介绍了Mind2Web 2,这是一个包含130个现实、高质量且长周期任务的基准测试集,这些任务需要实时网络浏览和广泛的信息综合,构建过程中投入了超过1,000小时的人工劳动。为了解决评估随时间变化且复杂的答案这一挑战,我们提出了一种新颖的“代理即评审者”框架。该方法基于树形结构评分设计构建特定任务的评审代理,以自动评估答案的正确性和来源归属。我们对九个前沿的代理搜索系统以及人类表现进行了全面评估,并通过详细的错误分析为未来的发展提供了洞见。表现最佳的系统——OpenAI深度研究系统——已经能够在花费一半时间的情况下达到50-70%的人类表现水平,显示出巨大的潜力。总体而言,Mind2Web 2为开发和评估下一代代理搜索系统提供了一个严格的基石。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Mind2Web 2:评估代理搜索中的代理作为评判者 | 论文 | HyperAI超神经