Command Palette

Search for a command to run...

5 个月前

我们是否仍应使用掩码语言模型对编码器进行预训练?

Hippolyte Gisserot-Boukhlef Nicolas Boizard Manuel Faysse Duarte M. Alves Emmanuel Malherbe Andr\u00e9 F. T. Martins C\u00e9line Hudelot Pierre Colombo

我们是否仍应使用掩码语言模型对编码器进行预训练?

摘要

学习高质量的文本表示对于广泛范围的自然语言处理(NLP)任务至关重要。尽管编码器预训练传统上依赖于掩码语言模型(MLM),但最近的研究表明,通过因果语言模型(CLM)预训练的解码器模型可以有效地重新用于编码器任务,并且在文本表示基准测试中通常超越传统的编码器。然而,这些性能提升是否反映了CLM目标的固有优势,还是由于混淆因素如模型规模和数据规模的影响,仍不清楚。本文通过一系列大规模、精心控制的预训练消融实验来探讨这一问题,共训练了30个参数量从2.1亿到10亿的模型,并进行了超过15,000次微调和评估运行。我们发现,虽然使用MLM进行训练通常在各种文本表示任务中表现出更好的性能,但CLM预训练的模型在数据效率方面更高,并且展示了改进的微调稳定性。基于这些发现,我们实验性地证明了一种两阶段训练策略——先应用CLM再应用MLM——在固定计算资源预算下能够实现最佳性能。此外,我们还展示了当从现有的大型语言模型生态系统中的预训练CLM模型初始化时,这种策略更具吸引力,因为这可以减少训练顶级编码器模型所需的计算负担。我们已将所有项目资料发布在 https://hf.co/MLMvsCLM ,以促进进一步研究。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
我们是否仍应使用掩码语言模型对编码器进行预训练? | 论文 | HyperAI超神经