Command Palette
Search for a command to run...
Pulkit Verma Ngoc La Anthony Favier Swaroop Mishra Julie A. Shah

摘要
大型语言模型(LLMs)在多种任务中展现出令人瞩目的能力,但在执行结构化符号规划方面仍存在局限,尤其是在需要形式化表示的领域,如规划领域定义语言(Planning Domain Definition Language, PDDL)。本文提出一种新型指令微调框架——PDDL-Instruct,旨在通过逻辑链式思维(chain-of-thought reasoning)增强LLMs的符号规划能力。我们的方法聚焦于教导模型通过显式的逻辑推理步骤,严谨地分析动作的适用性、状态转移以及计划的有效性。通过设计能够引导模型精确推理“在给定状态下哪些动作可被应用”的指令提示(instruction prompts),我们使LLMs能够通过结构化的反思实现自我修正。该框架通过将规划过程分解为关于前提条件满足性、效应应用以及不变量保持性的显式推理链,系统性地构建了验证能力。在多个规划领域的实验结果表明,基于链式思维的指令微调模型在规划任务上表现显著提升,在标准基准测试中达到了最高94%的规划准确率,相较于基线模型实现了66%的绝对性能提升。本研究弥合了大型语言模型的通用推理能力与自动化规划所需的逻辑精确性之间的鸿沟,为构建更优的AI规划系统提供了极具前景的发展方向。