Command Palette
Search for a command to run...
Karen Ullrich Jingtong Su Claudia Shi Arjun Subramonian Amir Bar Ivan Evtimov Nikolaos Tsilivis Randall Balestriero Julia Kempe Mark Ibrahim

摘要
可靠性是实现自主UI智能体(autonomous UI-Agents)潜力的关键,这类多模态智能体能够以与人类相同的方式直接与应用程序交互,用户必须能够信任这些智能体完成指定任务。然而,当前的评估方法通常依赖于固定的环境,往往是现有应用程序的复刻版本,其局限性在于仅能反映智能体在特定环境内完成任务的能力或频率。然而,当实际部署时,智能体可能面临应用程序界面设计和内容的多种变化,这些变化可能显著影响其完成任务的能力。为弥补这一在评估智能体跨应用变体可靠性方面的盲区,我们提出了OpenApps——一个轻量级、开源的应用生态系统,包含六个可配置的应用程序(如消息应用、日历、地图等),其外观和内容均可灵活调整。OpenApps仅需单个CPU即可运行,可轻松生成并部署每个应用的数千个变体版本。具体而言,我们对七种主流多模态智能体进行了超过10,000次独立评估,以研究其在不同应用变体下的可靠性表现。研究发现,尽管在固定应用环境中的标准可靠性相对稳定,但当在不同应用变体间进行评估时,可靠性却可能产生巨大波动。许多智能体的任务成功率在不同应用版本间波动超过50%。例如,Kimi-VL-3B在所有任务上的平均成功率,从63%下降至仅4%。此外,我们还发现,智能体的行为模式(如循环执行动作或产生幻觉式操作)在不同环境配置下也存在显著差异。这些初步结果凸显了在“应用变体”这一新维度上衡量智能体可靠性的关键重要性。