Command Palette
Search for a command to run...
Shuocheng Li Yihao Liu Silin Du Wenxuan Zeng Zhe Xu, et al

摘要
大型语言模型(LLMs)在自动化数据科学工作流方面展现出巨大潜力,但现有模型在多步推理与工具使用方面仍存在困难,这限制了其在复杂数据分析任务中的实际效能。为解决这一问题,我们提出了一种可扩展的流水线方法,能够从真实的Jupyter笔记本文件及其关联数据文件中提取高质量、基于工具的数据分析任务及其可执行的多步解决方案。基于该流水线,我们构建了NbQA——一个大规模标准化任务-解决方案对数据集,真实反映了实际数据科学场景中的工具使用模式。为进一步提升多步推理能力,我们提出了Jupiter框架,该框架将数据分析问题建模为搜索问题,并采用蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)生成多样化的解决方案路径,以支持价值模型的学习。在推理阶段,Jupiter结合价值模型与节点访问次数,高效地生成可执行的多步计划,且所需搜索步数极少。实验结果表明,Qwen2.5-7B与14B-Instruct模型在NbQA上的表现分别在InfiAgent-DABench基准上解决了77.82%和86.38%的任务,达到或超越了GPT-4o及先进的智能体框架。进一步的评估结果表明,该方法在多样化多步推理任务中展现出更强的泛化能力与更优的工具使用推理性能。