Command Palette
Search for a command to run...
判别式约束优化框架 DisCO
DisCO 框架是由德克萨斯农工大学研究团队于 2025 年 5 月提出的,相关研究成果发表于论文「DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization」,已入选 NeurIPS 2025 。
DisCO 框架基于判别学习的原则:提高正面答案的得分,同时降低负面答案的得分,用于强化 LRMs 。该框架相较于群体相对策略优化(GRPO)及其变体具有显著优势:
(i) 通过采用判别性目标,完全消除了难度偏差;
(ii) 通过使用非裁剪评分函数和约束优化方法,解决了 GRPO 及其变体中的熵不稳定性问题,从而产生了长而稳定的训练动态;
(iii) 允许结合先进的判别性学习技术来处理数据不平衡问题,其中在训练过程中,大量问题的负向生成答案数量多于正向答案。