HyperAI

摘要

可靠性是实现自主UI智能体（autonomous UI-Agents）潜力的关键，这类多模态智能体能够以与人类相同的方式直接与应用程序交互，用户必须能够信任这些智能体完成指定任务。然而，当前的评估方法通常依赖于固定的环境，往往是现有应用程序的复刻版本，其局限性在于仅能反映智能体在特定环境内完成任务的能力或频率。然而，当实际部署时，智能体可能面临应用程序界面设计和内容的多种变化，这些变化可能显著影响其完成任务的能力。为弥补这一在评估智能体跨应用变体可靠性方面的盲区，我们提出了OpenApps——一个轻量级、开源的应用生态系统，包含六个可配置的应用程序（如消息应用、日历、地图等），其外观和内容均可灵活调整。OpenApps仅需单个CPU即可运行，可轻松生成并部署每个应用的数千个变体版本。具体而言，我们对七种主流多模态智能体进行了超过10,000次独立评估，以研究其在不同应用变体下的可靠性表现。研究发现，尽管在固定应用环境中的标准可靠性相对稳定，但当在不同应用变体间进行评估时，可靠性却可能产生巨大波动。许多智能体的任务成功率在不同应用版本间波动超过50%。例如，Kimi-VL-3B在所有任务上的平均成功率，从63%下降至仅4%。此外，我们还发现，智能体的行为模式（如循环执行动作或产生幻觉式操作）在不同环境配置下也存在显著差异。这些初步结果凸显了在“应用变体”这一新维度上衡量智能体可靠性的关键重要性。

摘要

OpenApps：通过模拟环境变化来衡量UI-Agent的可靠性

Karen Ullrich Jingtong Su Claudia Shi Arjun Subramonian Amir Bar Ivan Evtimov Nikolaos Tsilivis Randall Balestriero Julia Kempe Mark Ibrahim

摘要

用 AI 构建 AI

Hyper Newsletters

OpenApps：通过模拟环境变化来衡量UI-Agent的可靠性

Karen Ullrich Jingtong Su Claudia Shi Arjun Subramonian Amir Bar Ivan Evtimov Nikolaos Tsilivis Randall Balestriero Julia Kempe Mark Ibrahim

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

OpenApps：通过模拟环境变化来衡量UI-Agent的可靠性

Karen Ullrich Jingtong Su Claudia Shi Arjun Subramonian Amir Bar Ivan Evtimov Nikolaos Tsilivis Randall Balestriero Julia Kempe Mark Ibrahim

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

OpenApps：通过模拟环境变化来衡量UI-Agent的可靠性

Karen Ullrich Jingtong Su Claudia Shi Arjun Subramonian Amir Bar Ivan Evtimov Nikolaos Tsilivis Randall Balestriero Julia Kempe Mark Ibrahim

摘要

用 AI 构建 AI

Hyper Newsletters