Command Palette

Search for a command to run...

4 天前

我们距离真正有用的深度研究Agent还有多远?

我们距离真正有用的深度研究Agent还有多远?

摘要

深度研究代理(Deep Research Agents, DRAs)旨在通过迭代式信息检索与综合,自动生成达到分析师水平的报告。然而,目前大多数现有DRAs仅在问答类基准上进行验证,而针对生成综合性报告的研究仍被严重忽视。更令人担忧的是,当前用于报告综合的评估基准在任务复杂性与评价指标的主观性方面存在明显缺陷,难以真实反映用户需求,也限制了生成报告的实际应用价值。为弥补上述不足,我们提出Fine-grained DEepResearch bench(FINDER),一个增强型评估基准。FINDER包含100个由人工精心设计的研究任务,涵盖419项结构化检查项,用以标准化报告的结构、分析深度与事实依据。基于主流DRAs生成的约1,000份报告,我们进一步构建了深度研究失败分类体系(Deep rEsearch Failure Taxonomy, DEFT),这是首个针对深度研究代理的失败分类体系。DEFT系统性地归纳了14种细粒度的失败模式,覆盖推理、信息检索与内容生成三个关键环节,并基于扎根理论,通过人类与大语言模型协同标注及标注者间一致性验证,确保分类的可靠性与可解释性。实验结果表明,当前DRAs的瓶颈并不在于任务理解能力,而在于证据整合、事实验证以及具备推理鲁棒性的规划能力。这一发现为未来DRAs的优化方向提供了关键洞见。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供