HyperAI超神经

摘要

虽然大型语言模型（LLMs）在推理过程中同时利用知识和推理能力，但区分这两者的能力在模型分析、可解释性以及开发中起着关键作用。受双系统认知理论的启发，我们提出了一种认知归因框架，用于解耦知识和推理的贡献。具体而言，LLMs的认知过程被分解为两个截然不同但相互补充的阶段：知识检索（阶段一）和推理调整（阶段二）。为了分离这两个阶段，我们通过提示LLMs在两种不同的认知模式下生成答案，即快速思维和慢速思维。通过对不同认知模式下性能的分析，我们量化了知识和推理的贡献。该架构被应用于3个数据集上的15个LLMs。实验结果表明：（1）推理调整具有领域特定性，对推理密集型领域（如数学、物理和化学）有益，而可能对知识密集型领域产生不利影响。（2）参数扩展同时提升了知识和推理能力，其中知识能力的提升更为显著。此外，参数扩展使LLMs的推理更加谨慎，而智力水平则适度提升。（3）知识主要存在于网络的低层，而推理则在高层进行。我们的框架不仅有助于从“解耦”的角度理解LLMs，还为现有研究提供了新的见解，包括扩展定律（scaling laws）、分层知识编辑（hierarchical knowledge editing）以及小模型推理能力的局限性。

摘要

解耦大语言模型中的知识与推理：基于认知双系统理论的探索

Mutian Yang Jiandong Gao Ji Wu

摘要

用 AI 构建 AI

Hyper Newsletters

解耦大语言模型中的知识与推理：基于认知双系统理论的探索

Mutian Yang Jiandong Gao Ji Wu

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

解耦大语言模型中的知识与推理：基于认知双系统理论的探索

Mutian Yang Jiandong Gao Ji Wu

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

解耦大语言模型中的知识与推理：基于认知双系统理论的探索

Mutian Yang Jiandong Gao Ji Wu

摘要

用 AI 构建 AI

Hyper Newsletters