Command Palette

Search for a command to run...

4 个月前

思维链自指导:为推理与非推理任务构建高质量的合成提示

Ping Yu Jack Lanchantin Tianlu Wang Weizhe Yuan Olga Golovneva Ilia Kulikov et al

思维链自指导:为推理与非推理任务构建高质量的合成提示

摘要

我们提出 CoT-Self-Instruct,一种合成数据生成方法。该方法首先引导大语言模型(LLM)基于给定的种子任务,通过基于思维链(Chain-of-Thought, CoT)的方式进行推理与规划,随后生成质量与复杂度相近的新合成提示(prompt),用于大语言模型的训练,并结合自动评估指标对数据进行高质量筛选。在可验证推理任务中,我们的合成数据在 MATH500、AMC23、AIME24 和 GPQA-Diamond 等基准测试上,显著优于现有训练数据集(如 s1k 和 OpenMathReasoning)。在不可验证的指令遵循任务中,该方法在 AlpacaEval 2.0 和 Arena-Hard 两个评测基准上的表现也超越了人类编写或标准自指导(self-instruct)提示的水平。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
思维链自指导:为推理与非推理任务构建高质量的合成提示 | 论文 | HyperAI超神经