Command Palette

Search for a command to run...

3 个月前

UI-S1:通过半在线强化学习推进GUI自动化

UI-S1:通过半在线强化学习推进GUI自动化

摘要

图形用户界面(GUI)智能体在通过强化学习自动化复杂用户界面交互方面已取得显著进展。然而,当前方法面临一个根本性难题:离线强化学习(offline RL)虽能基于预先收集的轨迹实现稳定训练,却因缺乏轨迹级别的奖励信号而难以完成多步任务;在线强化学习(online RL)虽能通过与环境交互获取此类信号,却受限于稀疏奖励和高昂的部署成本。为解决这一问题,我们提出了一种新型范式——半在线强化学习(Semi-online Reinforcement Learning),该方法在离线轨迹上模拟在线强化学习过程。在每次 rollout 过程中,我们保留多轮对话中原始模型的输出,并引入一个补丁模块(Patch Module),以自适应地修复 rollout 轨迹与专家轨迹之间的偏差。为捕捉长期训练信号,半在线强化学习在奖励计算中引入了折扣未来回报(discounted future returns),并采用加权的步骤级与回合级优势(step-level and episode-level advantages)对策略进行优化。此外,我们提出了半在线性能(Semi-Online Performance, SOP)这一新指标,其与真实在线性能具有更佳的一致性,可作为实际应用场景中评估的实用且有效的代理指标。实验结果表明,在四个动态基准测试中,我们的半在线强化学习方法在7B规模模型中达到了当前最优(SOTA)性能,相较于基线模型显著提升(例如在 AndroidWorld 上提升 12.0%,在 AITW 上提升 23.8%),充分展示了其在弥合离线训练效率与在线多轮推理能力之间差距方面的显著进展。代码已开源,地址为:https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UI-S1:通过半在线强化学习推进GUI自动化 | 论文 | HyperAI超神经