Command Palette

Search for a command to run...

4 天前

ScaleNet:通过增量参数扩展预训练神经网络

Zhiwei Hao Jianyuan Guo Li Shen Kai Han Yehui Tang Han Hu Yunhe Wang

ScaleNet:通过增量参数扩展预训练神经网络

摘要

近年来,视觉Transformer(ViT)的进展表明,模型规模越大,性能通常越优。然而,训练这些大型模型仍然面临计算成本高昂、资源消耗巨大的挑战。为应对这一问题,我们提出ScaleNet,一种高效扩展ViT模型的方法。与传统的从头训练不同,ScaleNet基于已有的预训练模型,实现快速模型扩展,且参数增长几乎可以忽略不计,从而提供了一种经济高效的ViT扩展方案。具体而言,ScaleNet通过在预训练ViT模型中插入额外的网络层来实现模型扩展,并采用逐层参数共享机制以保持参数效率。每一新增层的参数张量均与预训练模型中的对应层共享。为缓解因参数共享可能导致的性能下降问题,ScaleNet为每一层引入一组少量的可调参数。这些调整参数通过并行的适配器模块(adapter modules)实现,确保每个共享参数张量的实例在保持独立性的同时,能够针对其特定任务进行优化。在ImageNet-1K数据集上的实验表明,ScaleNet能够高效扩展ViT模型。以深度扩展两倍的DeiT-Base模型为例,ScaleNet在仅需三分之一训练轮次的情况下,相比从头训练提升了7.42%的准确率,充分展现了其在ViT模型扩展方面的高效性。此外,我们的方法在下游视觉任务中也展现出显著潜力,这一优势在目标检测任务的验证中得到了进一步证实。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供