Command Palette
Search for a command to run...
DeepPlanning:基于可验证约束的长时域Agent规划基准测试
DeepPlanning:基于可验证约束的长时域Agent规划基准测试
Yinger Zhang Shutong Jiang Renhao Li Jianhong Tu Yang Su Lianghao Deng Xudong Guo Chenxu Lv Junyang Lin
摘要
尽管智能体评估已逐渐转向长周期任务,但大多数现有基准测试仍侧重于局部的、逐步的推理,而非需要真正规划能力的全局约束优化(如时间与预算限制)。与此同时,现有的大语言模型(LLM)规划基准测试在很大程度上未能体现现实场景中典型的主动信息获取行为以及细粒度的局部约束。为解决这一问题,我们提出了 DeepPlanning——一个面向实际长周期智能体规划的具有挑战性的基准测试。该基准包含多日旅行规划和多商品购物等任务,要求智能体具备主动获取信息、进行局部约束推理以及实现全局约束优化的能力。在 DeepPlanning 上的评估表明,即使是最先进的智能体化大语言模型在处理这些问题时仍表现不佳,凸显了可靠显式推理模式与并行工具使用在实现更优效果-效率权衡中的重要性。错误分析进一步揭示了提升智能体化大语言模型在长周期规划中表现的潜在改进方向。我们已开源代码与数据,以支持后续研究。