Command Palette
Search for a command to run...

摘要
我们引入了MMBench-GUI,这是一个用于评估跨Windows、macOS、Linux、iOS、Android和Web平台的GUI自动化代理的分层基准。它包含四个层级:GUI内容理解、元素定位、任务自动化和任务协作,涵盖了GUI代理所需的核心能力。此外,我们提出了一种新的效率-质量面积(Efficiency-Quality Area, EQA)指标,用于评估在线自动化场景中GUI代理的执行效率。通过MMBench-GUI,我们发现准确的视觉定位是任务整体成功的关键因素,这突显了整合专用定位模块的模块化框架所带来的显著优势。此外,为了实现可靠的GUI自动化,代理需要具备强大的任务规划和跨平台泛化能力,其中长上下文记忆、广泛的动作空间以及长期推理在其中发挥着至关重要的作用。更重要的是,任务效率仍然是一个被严重忽视的维度,所有模型在这一方面都存在显著的低效问题,即使任务最终得以完成,也常常伴随着大量的冗余步骤。精确的定位、有效的规划以及早期终止策略的结合,是实现真正高效且可扩展GUI自动化的必要条件。我们的基准代码、评估数据和运行环境将公开发布于https://github.com/open-compass/MMBench-GUI。