Command Palette

Search for a command to run...

5 天前

OpenApps:通过模拟环境变化来衡量UI-Agent的可靠性

Karen Ullrich Jingtong Su Claudia Shi Arjun Subramonian Amir Bar Ivan Evtimov Nikolaos Tsilivis Randall Balestriero Julia Kempe Mark Ibrahim

OpenApps:通过模拟环境变化来衡量UI-Agent的可靠性

摘要

可靠性是实现自主UI智能体(autonomous UI-Agents)潜力的关键,这类多模态智能体能够以与人类相同的方式直接与应用程序交互,用户必须能够信任这些智能体完成指定任务。然而,当前的评估方法通常依赖于固定的环境,往往是现有应用程序的复刻版本,其局限性在于仅能反映智能体在特定环境内完成任务的能力或频率。然而,当实际部署时,智能体可能面临应用程序界面设计和内容的多种变化,这些变化可能显著影响其完成任务的能力。为弥补这一在评估智能体跨应用变体可靠性方面的盲区,我们提出了OpenApps——一个轻量级、开源的应用生态系统,包含六个可配置的应用程序(如消息应用、日历、地图等),其外观和内容均可灵活调整。OpenApps仅需单个CPU即可运行,可轻松生成并部署每个应用的数千个变体版本。具体而言,我们对七种主流多模态智能体进行了超过10,000次独立评估,以研究其在不同应用变体下的可靠性表现。研究发现,尽管在固定应用环境中的标准可靠性相对稳定,但当在不同应用变体间进行评估时,可靠性却可能产生巨大波动。许多智能体的任务成功率在不同应用版本间波动超过50%。例如,Kimi-VL-3B在所有任务上的平均成功率,从63%下降至仅4%。此外,我们还发现,智能体的行为模式(如循环执行动作或产生幻觉式操作)在不同环境配置下也存在显著差异。这些初步结果凸显了在“应用变体”这一新维度上衡量智能体可靠性的关键重要性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OpenApps:通过模拟环境变化来衡量UI-Agent的可靠性 | 论文 | HyperAI超神经