HyperAI超神经

5 个月前

参数高效的自然语言处理迁移学习

查看论文详情

Neil Houlsby Andrei Giurgiu* Stanisław Jastrzębski* Bruna Morrone Quentin de Laroussilhe Andrea Gesmundo Mona Attariyan Sylvain Gelly

参数高效的自然语言处理迁移学习

摘要

微调大型预训练模型是自然语言处理（NLP）中一种有效的迁移机制。然而，在面对众多下游任务时，微调在参数效率方面存在不足：每个任务都需要一个全新的模型。作为替代方案，我们提出使用适配器模块进行迁移。适配器模块能够生成紧凑且可扩展的模型；它们为每个任务仅增加少量可训练参数，并且可以在不重新审视先前任务的情况下添加新任务。原始网络的参数保持固定，从而实现高度的参数共享。为了展示适配器的有效性，我们将最近提出的BERT Transformer模型迁移到26个不同的文本分类任务上，包括GLUE基准测试。实验结果表明，适配器在每个任务上仅增加少量参数的情况下，达到了接近最先进水平的性能。在GLUE基准测试中，我们的方法在性能上仅比完全微调低0.4%，但每个任务仅增加了3.6%的参数。相比之下，完全微调则需要对每个任务训练100%的参数。

代码仓库

hmohebbi/TF-Adapter-BERT

tf

GitHub 中提及

kpe/bert-for-tf2

tf

GitHub 中提及

ZhangYuanhan-AI/NOAH

tf

GitHub 中提及

cs-mshah/Adapter-Bert

pytorch

GitHub 中提及

TATlong/keras_bert

tf

GitHub 中提及

krypticmouse/Adapter-BERT

pytorch

prrao87/fine-grained-sentiment

pytorch

GitHub 中提及

google-research/adapter-bert

官方

tf

GitHub 中提及

AsaCooperStickland/Bert-n-Pals

pytorch

GitHub 中提及

CyberZHG/keras-bert

tf

GitHub 中提及

pytorch

GitHub 中提及

Davidzhangyuanhan/NOAH

tf

GitHub 中提及

osu-mlb/vit_peft_vision

pytorch

GitHub 中提及

osu-mlb/petl_vision

pytorch

GitHub 中提及

mindspore-courses/d2l-mindspore/tree/master/chapter_15_natural_language_processing_applications

mindspore

Adapter-Hub/adapter-transformers

pytorch

GitHub 中提及

zphang/bert_on_stilts

pytorch

GitHub 中提及

基准测试

基准	方法	指标
image-classification-on-omnibenchmark	Adapter-ViTB/16	Average Top-1 Accuracy: 44.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI超神经

5 个月前

参数高效的自然语言处理迁移学习

查看论文详情

Neil Houlsby Andrei Giurgiu* Stanisław Jastrzębski* Bruna Morrone Quentin de Laroussilhe Andrea Gesmundo Mona Attariyan Sylvain Gelly

参数高效的自然语言处理迁移学习

摘要

微调大型预训练模型是自然语言处理（NLP）中一种有效的迁移机制。然而，在面对众多下游任务时，微调在参数效率方面存在不足：每个任务都需要一个全新的模型。作为替代方案，我们提出使用适配器模块进行迁移。适配器模块能够生成紧凑且可扩展的模型；它们为每个任务仅增加少量可训练参数，并且可以在不重新审视先前任务的情况下添加新任务。原始网络的参数保持固定，从而实现高度的参数共享。为了展示适配器的有效性，我们将最近提出的BERT Transformer模型迁移到26个不同的文本分类任务上，包括GLUE基准测试。实验结果表明，适配器在每个任务上仅增加少量参数的情况下，达到了接近最先进水平的性能。在GLUE基准测试中，我们的方法在性能上仅比完全微调低0.4%，但每个任务仅增加了3.6%的参数。相比之下，完全微调则需要对每个任务训练100%的参数。

代码仓库

hmohebbi/TF-Adapter-BERT

tf

GitHub 中提及

kpe/bert-for-tf2

tf

GitHub 中提及

ZhangYuanhan-AI/NOAH

tf

GitHub 中提及

cs-mshah/Adapter-Bert

pytorch

GitHub 中提及

TATlong/keras_bert

tf

GitHub 中提及

krypticmouse/Adapter-BERT

pytorch

prrao87/fine-grained-sentiment

pytorch

GitHub 中提及

google-research/adapter-bert

官方

tf

GitHub 中提及

AsaCooperStickland/Bert-n-Pals

pytorch

GitHub 中提及

CyberZHG/keras-bert

tf

GitHub 中提及

pytorch

GitHub 中提及

Davidzhangyuanhan/NOAH

tf

GitHub 中提及

osu-mlb/vit_peft_vision

pytorch

GitHub 中提及

osu-mlb/petl_vision

pytorch

GitHub 中提及

mindspore-courses/d2l-mindspore/tree/master/chapter_15_natural_language_processing_applications

mindspore

Adapter-Hub/adapter-transformers

pytorch

GitHub 中提及

zphang/bert_on_stilts

pytorch

GitHub 中提及

基准测试

基准	方法	指标
image-classification-on-omnibenchmark	Adapter-ViTB/16	Average Top-1 Accuracy: 44.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供