2 个月前

DeepSeek-AI Aixin Liu Aoxue Mei Bangcai Lin Bing Xue Bingxuan Wang Bingzheng Xu Bochao Wu Bowei Zhang Chaofan Lin

摘要

我们推出了 DeepSeek-V3.2，该模型在保持高计算效率的同时，实现了卓越的推理能力与智能体性能。DeepSeek-V3.2 的关键技术突破主要包括以下三点：（1）稀疏注意力机制 DeepSeek Sparse Attention（DSA）：我们提出了一种高效的注意力机制 DSA，能够在显著降低计算复杂度的同时，有效保持模型在长上下文场景下的性能表现。（2）可扩展的强化学习框架：通过实施稳健的强化学习协议并大幅扩展后训练阶段的计算资源，DeepSeek-V3.2 的性能已达到与 GPT-5 相当的水平。尤为突出的是，我们的高算力版本 DeepSeek-V3.2-Special 在多项指标上超越 GPT-5，其推理能力与 Gemini-3.0-Pro 持平，并在 2025 年国际数学奥林匹克竞赛（IMO）和国际信息学奥林匹克竞赛（IOI）中均取得金牌级表现，展现了顶尖的综合智能水平。（3）大规模智能体任务合成流水线：为将推理能力有效融入工具使用场景，我们开发了一种新型合成流水线，可系统化地大规模生成训练数据。该方法支持可扩展的智能体后训练，显著提升了模型在复杂、交互式环境中的泛化能力与指令遵循鲁棒性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

2 个月前

DeepSeek-AI Aixin Liu Aoxue Mei Bangcai Lin Bing Xue Bingxuan Wang Bingzheng Xu Bochao Wu Bowei Zhang Chaofan Lin

摘要

我们推出了 DeepSeek-V3.2，该模型在保持高计算效率的同时，实现了卓越的推理能力与智能体性能。DeepSeek-V3.2 的关键技术突破主要包括以下三点：（1）稀疏注意力机制 DeepSeek Sparse Attention（DSA）：我们提出了一种高效的注意力机制 DSA，能够在显著降低计算复杂度的同时，有效保持模型在长上下文场景下的性能表现。（2）可扩展的强化学习框架：通过实施稳健的强化学习协议并大幅扩展后训练阶段的计算资源，DeepSeek-V3.2 的性能已达到与 GPT-5 相当的水平。尤为突出的是，我们的高算力版本 DeepSeek-V3.2-Special 在多项指标上超越 GPT-5，其推理能力与 Gemini-3.0-Pro 持平，并在 2025 年国际数学奥林匹克竞赛（IMO）和国际信息学奥林匹克竞赛（IOI）中均取得金牌级表现，展现了顶尖的综合智能水平。（3）大规模智能体任务合成流水线：为将推理能力有效融入工具使用场景，我们开发了一种新型合成流水线，可系统化地大规模生成训练数据。该方法支持可扩展的智能体后训练，显著提升了模型在复杂、交互式环境中的泛化能力与指令遵循鲁棒性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供