5 小时前

自然语言处理

Yinger Zhang Shutong Jiang Renhao Li Jianhong Tu Yang Su Lianghao Deng Xudong Guo Chenxu Lv Junyang Lin

摘要

尽管智能体评估已逐渐转向长周期任务，但大多数现有基准测试仍侧重于局部的、逐步的推理，而非需要真正规划能力的全局约束优化（如时间与预算限制）。与此同时，现有的大语言模型（LLM）规划基准测试在很大程度上未能体现现实场景中典型的主动信息获取行为以及细粒度的局部约束。为解决这一问题，我们提出了 DeepPlanning——一个面向实际长周期智能体规划的具有挑战性的基准测试。该基准包含多日旅行规划和多商品购物等任务，要求智能体具备主动获取信息、进行局部约束推理以及实现全局约束优化的能力。在 DeepPlanning 上的评估表明，即使是最先进的智能体化大语言模型在处理这些问题时仍表现不佳，凸显了可靠显式推理模式与并行工具使用在实现更优效果-效率权衡中的重要性。错误分析进一步揭示了提升智能体化大语言模型在长周期规划中表现的潜在改进方向。我们已开源代码与数据，以支持后续研究。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 小时前

自然语言处理

Yinger Zhang Shutong Jiang Renhao Li Jianhong Tu Yang Su Lianghao Deng Xudong Guo Chenxu Lv Junyang Lin

摘要

尽管智能体评估已逐渐转向长周期任务，但大多数现有基准测试仍侧重于局部的、逐步的推理，而非需要真正规划能力的全局约束优化（如时间与预算限制）。与此同时，现有的大语言模型（LLM）规划基准测试在很大程度上未能体现现实场景中典型的主动信息获取行为以及细粒度的局部约束。为解决这一问题，我们提出了 DeepPlanning——一个面向实际长周期智能体规划的具有挑战性的基准测试。该基准包含多日旅行规划和多商品购物等任务，要求智能体具备主动获取信息、进行局部约束推理以及实现全局约束优化的能力。在 DeepPlanning 上的评估表明，即使是最先进的智能体化大语言模型在处理这些问题时仍表现不佳，凸显了可靠显式推理模式与并行工具使用在实现更优效果-效率权衡中的重要性。错误分析进一步揭示了提升智能体化大语言模型在长周期规划中表现的潜在改进方向。我们已开源代码与数据，以支持后续研究。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供