HyperAI

摘要

代理搜索系统（如深度研究系统），其中大型语言模型自主浏览网络、综合信息并返回全面且有引用支持的答案，标志着用户与大规模网络信息互动方式的重大转变。尽管这些系统有望提高效率并减轻认知负担，但其日益增长的复杂性和开放性已经超过了现有的评估基准和方法，后者主要假设搜索时间较短且答案静态不变。在本文中，我们介绍了Mind2Web 2，这是一个包含130个现实、高质量且长周期任务的基准测试集，这些任务需要实时网络浏览和广泛的信息综合，构建过程中投入了超过1,000小时的人工劳动。为了解决评估随时间变化且复杂的答案这一挑战，我们提出了一种新颖的“代理即评审者”框架。该方法基于树形结构评分设计构建特定任务的评审代理，以自动评估答案的正确性和来源归属。我们对九个前沿的代理搜索系统以及人类表现进行了全面评估，并通过详细的错误分析为未来的发展提供了洞见。表现最佳的系统——OpenAI深度研究系统——已经能够在花费一半时间的情况下达到50-70%的人类表现水平，显示出巨大的潜力。总体而言，Mind2Web 2为开发和评估下一代代理搜索系统提供了一个严格的基石。

摘要

Mind2Web 2：评估代理搜索中的代理作为评判者

Boyu Gou Zanming Huang Yuting Ning Yu Gu Michael Lin Weijian Qi Andrei Kopanev Botao Yu et al

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Mind2Web 2：评估代理搜索中的代理作为评判者

Boyu Gou Zanming Huang Yuting Ning Yu Gu Michael Lin Weijian Qi Andrei Kopanev Botao Yu et al

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

Mind2Web 2：评估代理搜索中的代理作为评判者

Boyu Gou Zanming Huang Yuting Ning Yu Gu Michael Lin Weijian Qi Andrei Kopanev Botao Yu et al

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

Mind2Web 2：评估代理搜索中的代理作为评判者

Boyu Gou Zanming Huang Yuting Ning Yu Gu Michael Lin Weijian Qi Andrei Kopanev Botao Yu et al

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters