Command Palette

Search for a command to run...

判别式约束优化框架 DisCO

日期

5 天前

机构

论文链接

2505.12366

DisCO 框架是由德克萨斯农工大学研究团队于 2025 年 5 月提出的,相关研究成果发表于论文「DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization」,已入选 NeurIPS 2025 。

DisCO 框架基于判别学习的原则:提高正面答案的得分,同时降低负面答案的得分,用于强化 LRMs 。该框架相较于群体相对策略优化(GRPO)及其变体具有显著优势:

(i) 通过采用判别性目标,完全消除了难度偏差;

(ii) 通过使用非裁剪评分函数和约束优化方法,解决了 GRPO 及其变体中的熵不稳定性问题,从而产生了长而稳定的训练动态;

(iii) 允许结合先进的判别性学习技术来处理数据不平衡问题,其中在训练过程中,大量问题的负向生成答案数量多于正向答案。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
判别式约束优化框架 DisCO | 百科 | HyperAI超神经