Command Palette
Search for a command to run...
Mingxing Tan Ruoming Pang Quoc V. Le

摘要
模型效率在计算机视觉领域日益重要。本文系统地研究了目标检测任务中神经网络架构设计的选择,并提出了多项关键优化以提升模型效率。首先,我们提出了一种加权双向特征金字塔网络(Weighted Bi-directional Feature Pyramid Network, BiFPN),该结构能够实现高效且快速的多尺度特征融合;其次,我们引入了一种复合缩放方法(Compound Scaling Method),可统一地同时扩展主干网络(backbone)、特征网络以及边界框/类别预测网络的分辨率、深度与宽度。基于上述优化策略以及更优的主干网络,我们构建了一类新型目标检测器——EfficientDet,其在多种资源约束条件下均显著优于以往方法,展现出卓越的效率表现。具体而言,在单模型、单尺度设置下,EfficientDet-D7 在 COCO test-dev 数据集上达到了 55.1 的 AP(平均精度)性能,仅需 77M 参数量和 410B 次浮点运算(FLOPs),相比此前的检测器,模型尺寸缩小了 4 至 9 倍,计算量减少 13 至 42 倍。代码已开源,地址为:https://github.com/google/automl/tree/master/efficientdet。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-detection-on-coco | EfficientDet-D7 (1536) | AP50: 71.6 AP75: 56.9 box mAP: 52.6 |
| object-detection-on-coco-minival | EfficientDet-D7x (single-scale) | AP50: 73.4 AP75: 59.0 APL: 67.9 APM: 58.0 APS: 40.0 |
| object-detection-on-coco-minival | EfficientDet-D7 (1536) | box AP: 52.1 |
| object-detection-on-coco-o | EfficientDet-D5 (EfficientNet-B5) | Average mAP: 28.5 Effective Robustness: 5.44 |