HyperAI超神经

摘要

高效CUDA内核的开发对于大规模语言模型（LLM）训练等人工智能应用日益关键。然而，手动设计内核不仅成本高昂，而且耗时漫长，这促使研究者探索基于大语言模型（LLM）进行代码自动生成的自动化方法。现有自动内核生成方法通常生成的内核效率低下，计算开销大，且难以在不同场景间泛化。在本工作中，我们提出CudaForge——一种无需训练的多智能体工作流，用于CUDA内核的生成与优化。该工作流受到人类专家迭代式开发流程的启发，包含初始内核开发、正确性测试、硬件反馈分析以及迭代优化等步骤。具体而言，CudaForge采用两个LLM智能体：一个“编码器”（Coder）和一个“评判器”（Judge），二者协同迭代地生成、修正并优化CUDA内核，同时整合来自硬件分析工具（如Nsight Compute，简称NCU）的性能反馈指标。在广泛的实验评估中，我们表明，通过利用OpenAI-o3等基础模型，CudaForge生成的内核正确率高达97.6%，相较于PyTorch基线平均提速1.68倍，显著优于当前最先进的模型（包括OpenAI-o3和Kevin）。在准确率与加速比方面，CudaForge展现出强大的跨硬件泛化能力，适用于多种GPU架构（A100、RTX 6000、4090、3090）以及多种基础模型（OpenAI-o3、GPT-5、gpt-oss-120B、Claude-Sonnet-4、QwQ-32B），同时保持高效率。特别地，在单张RTX 6000显卡上生成一个优化后的内核平均耗时约26.5分钟，API调用成本约为0.3美元，远低于现有基于智能体的方法（后者每生成一个内核需消耗6个H100小时计算时间和5美元API成本）。我们的实验结果表明，无需训练的多智能体工作流能够实现低成本、强泛化性且高性能的CUDA内核优化，为AI应用中的高性能计算提供了极具前景的新范式。

摘要

CudaForge：一种支持硬件反馈的CUDA内核优化Agent框架

Zijian Zhang Rong Wang Shiyang Li Yuebo Luo Mingyi Hong Caiwen Ding

摘要

用 AI 构建 AI

Hyper Newsletters

CudaForge：一种支持硬件反馈的CUDA内核优化Agent框架

Zijian Zhang Rong Wang Shiyang Li Yuebo Luo Mingyi Hong Caiwen Ding

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

CudaForge：一种支持硬件反馈的CUDA内核优化Agent框架

Zijian Zhang Rong Wang Shiyang Li Yuebo Luo Mingyi Hong Caiwen Ding

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

CudaForge：一种支持硬件反馈的CUDA内核优化Agent框架

Zijian Zhang Rong Wang Shiyang Li Yuebo Luo Mingyi Hong Caiwen Ding

摘要

用 AI 构建 AI

Hyper Newsletters