Command Palette

Search for a command to run...

4 个月前

解耦大语言模型中的知识与推理:基于认知双系统理论的探索

Mutian Yang Jiandong Gao Ji Wu

解耦大语言模型中的知识与推理:基于认知双系统理论的探索

摘要

虽然大型语言模型(LLMs)在推理过程中同时利用知识和推理能力,但区分这两者的能力在模型分析、可解释性以及开发中起着关键作用。受双系统认知理论的启发,我们提出了一种认知归因框架,用于解耦知识和推理的贡献。具体而言,LLMs的认知过程被分解为两个截然不同但相互补充的阶段:知识检索(阶段一)和推理调整(阶段二)。为了分离这两个阶段,我们通过提示LLMs在两种不同的认知模式下生成答案,即快速思维和慢速思维。通过对不同认知模式下性能的分析,我们量化了知识和推理的贡献。该架构被应用于3个数据集上的15个LLMs。实验结果表明:(1)推理调整具有领域特定性,对推理密集型领域(如数学、物理和化学)有益,而可能对知识密集型领域产生不利影响。(2)参数扩展同时提升了知识和推理能力,其中知识能力的提升更为显著。此外,参数扩展使LLMs的推理更加谨慎,而智力水平则适度提升。(3)知识主要存在于网络的低层,而推理则在高层进行。我们的框架不仅有助于从“解耦”的角度理解LLMs,还为现有研究提供了新的见解,包括扩展定律(scaling laws)、分层知识编辑(hierarchical knowledge editing)以及小模型推理能力的局限性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供