Command Palette
Search for a command to run...

摘要
近期研究致力于构建能够执行复杂图形用户界面(GUI)计算机任务的自主智能体,有望彻底改变人机交互方式。尽管已取得令人鼓舞的成果,但现有工作主要聚焦于短期交互,并依赖仅基于结果的验证机制,因而限制了其在真实GUI应用场景中的可扩展性——这些场景通常要求长期任务的分解与执行。为此,本文提出VeriGUI,一个新型的可验证长链GUI数据集,旨在促进通用GUI智能体在真实计算机环境中的开发与评估。该数据集强调两个关键维度:(1)长链复杂性,即任务被分解为一系列相互依赖的子任务,涵盖数百个步骤,且明确设计为允许任意子任务作为有效起点;(2)子任务级可验证性,支持在每个子任务内采用多样化的探索策略,同时确保每个子任务的目标均可验证且保持一致性。VeriGUI数据集涵盖桌面端与网页端的GUI任务轨迹,均由人类专家进行标注。基于多种具备不同基础模型的智能体在VeriGUI上开展的大量实验表明,当前智能体在处理长周期任务时存在显著性能差距,凸显出GUI智能体亟需更强的规划与决策能力。