Command Palette

Search for a command to run...

4 个月前

MMBench-GUI:面向GUI代理的分层多平台评估框架

MMBench-GUI:面向GUI代理的分层多平台评估框架

摘要

我们引入了MMBench-GUI,这是一个用于评估跨Windows、macOS、Linux、iOS、Android和Web平台的GUI自动化代理的分层基准。它包含四个层级:GUI内容理解、元素定位、任务自动化和任务协作,涵盖了GUI代理所需的核心能力。此外,我们提出了一种新的效率-质量面积(Efficiency-Quality Area, EQA)指标,用于评估在线自动化场景中GUI代理的执行效率。通过MMBench-GUI,我们发现准确的视觉定位是任务整体成功的关键因素,这突显了整合专用定位模块的模块化框架所带来的显著优势。此外,为了实现可靠的GUI自动化,代理需要具备强大的任务规划和跨平台泛化能力,其中长上下文记忆、广泛的动作空间以及长期推理在其中发挥着至关重要的作用。更重要的是,任务效率仍然是一个被严重忽视的维度,所有模型在这一方面都存在显著的低效问题,即使任务最终得以完成,也常常伴随着大量的冗余步骤。精确的定位、有效的规划以及早期终止策略的结合,是实现真正高效且可扩展GUI自动化的必要条件。我们的基准代码、评估数据和运行环境将公开发布于https://github.com/open-compass/MMBench-GUI

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MMBench-GUI:面向GUI代理的分层多平台评估框架 | 论文 | HyperAI超神经