Command Palette
Search for a command to run...
Jianxin Huang, Student Member, IEEE, Jiahang Li, Graduate Student Member, IEEE, Ning Jia, Yuxiang Sun, Chengju Liu, Qijun Chen, Senior Member, IEEE, and Rui Fan, Senior Member, IEEE

摘要
特定任务的数据融合网络在城市场景解析中取得了显著的成就。其中,我们最近提出的RoadFormer成功地从RGB图像和表面法线图中提取了异构特征,并通过注意力机制将这些特征进行融合,在RGB-Normal道路场景解析中展示了令人信服的效果。然而,当处理其他类型或来源的数据时,其性能显著下降,或者在执行更为普遍的全类别场景解析任务时表现不佳。为克服这些局限性,本研究引入了RoadFormer+,这是一种高效、稳健且适应性强的模型,能够有效融合RGB-X数据,其中“X”代表额外的数据类型或模态,如深度、热成像、表面法线和偏振。具体而言,我们提出了一种新颖的混合特征解耦编码器来提取异构特征,并将其解耦为全局和局部组件。这些解耦后的特征随后通过双分支多尺度异构特征融合模块进行融合,该模块采用了并行Transformer注意力机制和卷积神经网络模块来合并不同尺度和感受野的多尺度特征。融合后的特征被送入解码器以生成最终的语义预测结果。值得注意的是,我们提出的RoadFormer+在KITTI道路基准测试中排名第一,并在Cityscapes、MFNet、FMB和ZJU数据集上实现了最先进的平均交并比(mean intersection over union)。此外,与RoadFormer相比,它减少了65%的学习参数。我们的源代码将在mias.group/RoadFormerPlus公开发布。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-fmb-dataset | RoadFormer+ (RGB-Infrared) | mIoU: 73.1 |
| semantic-segmentation-on-syn-udtiri | RoadFormer+ (B) | IoU: 94.11 |
| semantic-segmentation-on-zju-rgb-p | RoadFormer+ (ConvNeXt-L, RGB-AoLP) | mIoU: 93.0 |
| semantic-segmentation-on-zju-rgb-p | RoadFormer+ (ConvNeXt-B, RGB-AoLP) | mIoU: 92.9 |
| thermal-image-segmentation-on-mfn-dataset | RoadFormer+ (ConvNeXt-L) | mIOU: 62.7 |