Command Palette

Search for a command to run...

4 天前

DeepSeek-V3.2:推动开源大型语言模型的前沿

DeepSeek-V3.2:推动开源大型语言模型的前沿

摘要

我们推出了 DeepSeek-V3.2,该模型在保持高计算效率的同时,实现了卓越的推理能力与智能体性能。DeepSeek-V3.2 的关键技术突破主要包括以下三点:(1)稀疏注意力机制 DeepSeek Sparse Attention(DSA):我们提出了一种高效的注意力机制 DSA,能够在显著降低计算复杂度的同时,有效保持模型在长上下文场景下的性能表现。(2)可扩展的强化学习框架:通过实施稳健的强化学习协议并大幅扩展后训练阶段的计算资源,DeepSeek-V3.2 的性能已达到与 GPT-5 相当的水平。尤为突出的是,我们的高算力版本 DeepSeek-V3.2-Special 在多项指标上超越 GPT-5,其推理能力与 Gemini-3.0-Pro 持平,并在 2025 年国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)中均取得金牌级表现,展现了顶尖的综合智能水平。(3)大规模智能体任务合成流水线:为将推理能力有效融入工具使用场景,我们开发了一种新型合成流水线,可系统化地大规模生成训练数据。该方法支持可扩展的智能体后训练,显著提升了模型在复杂、交互式环境中的泛化能力与指令遵循鲁棒性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DeepSeek-V3.2:推动开源大型语言模型的前沿 | 论文 | HyperAI超神经