Command Palette

Search for a command to run...

5 个月前

SWE-Perf:语言模型能否优化现实仓库中的代码性能?

Xinyi He Qian Liu Mingzhe Du Lin Yan Zhijie Fan Yiming Huang Zejian Yuan Zejun Ma

SWE-Perf:语言模型能否优化现实仓库中的代码性能?

摘要

代码性能优化在实际软件工程中至关重要,对于生产级别的系统尤为关键。尽管大型语言模型(LLMs)在代码生成和漏洞修复方面展示了令人印象深刻的能力,但它们在仓库级别提升代码性能方面的熟练程度仍 largely unexplored(很大程度上未被探索)。为了解决这一空白,我们引入了 SWE-Perf,这是首个专门设计用于系统评估大型语言模型在真实仓库环境中进行代码性能优化任务的基准测试。SWE-Perf 包含 140 个精心挑选的实例,每个实例均源自流行 GitHub 仓库中的性能改进拉取请求。每个基准测试实例包括相关的代码库、目标函数、性能相关测试、专家编写的补丁以及可执行环境。通过对涵盖文件级和仓库级方法(例如无代理方法和 OpenHands 方法)的代表性方法进行全面评估,我们揭示了现有大型语言模型与专家级优化性能之间存在显著的能力差距,突显了这一新兴领域中的重要研究机会。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SWE-Perf:语言模型能否优化现实仓库中的代码性能? | 论文 | HyperAI超神经