Command Palette
Search for a command to run...
Sara Vera Marjanović Arkil Patel Vaibhav Adlakha Milad Aghajohari Parishad BehnamGhader et al

摘要
大型推理模型(如 DeepSeek-R1)标志着大语言模型(LLM)处理复杂问题方式的根本性转变。与以往直接对给定输入生成答案不同,DeepSeek-R1 会构建详尽的多步推理链条,仿佛在“思考”问题之后才给出答案。这一推理过程对用户完全公开,为研究模型的推理行为提供了无限可能,也推动了“思辨学”(Thoughtology)这一新兴研究领域的兴起。基于对 DeepSeek-R1 推理基本构成单元的分类体系,我们的分析深入探讨了推理长度的影响与可控性、长序列或混乱上下文的管理能力、文化敏感性与安全问题,以及 DeepSeek-R1 在认知现象层面的表现,例如类人语言处理与世界建模能力。研究结果呈现出一幅细致而复杂的图景。特别值得注意的是,我们发现 DeepSeek-R1 存在一个“最优推理区间”——在该区间内,推理效果最佳;而过度延长推理时间反而会损害模型性能。此外,我们观察到 DeepSeek-R1 倾向于反复纠缠于先前已探索过的问题表述,从而阻碍了对新路径的进一步探索。最后,我们还发现,相较于其非推理型对应模型,DeepSeek-R1 在安全性方面存在显著漏洞,这种缺陷甚至可能波及那些经过安全对齐训练的大语言模型,构成潜在风险。