Command Palette

Search for a command to run...

4 天前

CudaForge:一种支持硬件反馈的CUDA内核优化Agent框架

Zijian Zhang Rong Wang Shiyang Li Yuebo Luo Mingyi Hong Caiwen Ding

CudaForge:一种支持硬件反馈的CUDA内核优化Agent框架

摘要

高效CUDA内核的开发对于大规模语言模型(LLM)训练等人工智能应用日益关键。然而,手动设计内核不仅成本高昂,而且耗时漫长,这促使研究者探索基于大语言模型(LLM)进行代码自动生成的自动化方法。现有自动内核生成方法通常生成的内核效率低下,计算开销大,且难以在不同场景间泛化。在本工作中,我们提出CudaForge——一种无需训练的多智能体工作流,用于CUDA内核的生成与优化。该工作流受到人类专家迭代式开发流程的启发,包含初始内核开发、正确性测试、硬件反馈分析以及迭代优化等步骤。具体而言,CudaForge采用两个LLM智能体:一个“编码器”(Coder)和一个“评判器”(Judge),二者协同迭代地生成、修正并优化CUDA内核,同时整合来自硬件分析工具(如Nsight Compute,简称NCU)的性能反馈指标。在广泛的实验评估中,我们表明,通过利用OpenAI-o3等基础模型,CudaForge生成的内核正确率高达97.6%,相较于PyTorch基线平均提速1.68倍,显著优于当前最先进的模型(包括OpenAI-o3和Kevin)。在准确率与加速比方面,CudaForge展现出强大的跨硬件泛化能力,适用于多种GPU架构(A100、RTX 6000、4090、3090)以及多种基础模型(OpenAI-o3、GPT-5、gpt-oss-120B、Claude-Sonnet-4、QwQ-32B),同时保持高效率。特别地,在单张RTX 6000显卡上生成一个优化后的内核平均耗时约26.5分钟,API调用成本约为0.3美元,远低于现有基于智能体的方法(后者每生成一个内核需消耗6个H100小时计算时间和5美元API成本)。我们的实验结果表明,无需训练的多智能体工作流能够实现低成本、强泛化性且高性能的CUDA内核优化,为AI应用中的高性能计算提供了极具前景的新范式。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供