HyperAIHyperAI

Command Palette

Search for a command to run...

HiPO 混合策略优化框架

日期

2 个月前

组织

Nanjing University
快手科技

论文 URL

2509.23967

HiPO(Hybrid Policy Optimization)是由快手联合南京大学的研究团队于 2025 年 9 月提出的,相关研究成果发表于论文「HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs」。

HiPO 是一个用于自适应推理控制的框架,使 LLMs 能够选择性地决定何时进行详细推理(Think-on)以及何时直接响应(Think-off)。具体而言,HiPO 结合了一个混合数据管道,提供配对的 Think-on 和 Think-off 响应,以及一个混合强化学习奖励系统,该系统在平衡准确性和效率的同时避免过度依赖详细推理。在数学和编程基准测试中的实验表明,HiPO 可以显著减少令牌长度,同时保持或提高准确性。

框架图

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
HiPO 混合策略优化框架 | Wiki | HyperAI超神经