Command Palette
Search for a command to run...
Zhou Yin Tuzel Oncel

摘要
在众多应用中,如自动驾驶导航、家务服务机器人以及增强现实/虚拟现实,对三维点云中物体的精确检测是一个核心问题。为了将高度稀疏的激光雷达(LiDAR)点云与区域建议网络(RPN)进行对接,现有大多数方法主要依赖于手工设计的特征表示,例如鸟瞰图投影。在本研究中,我们摒弃了对三维点云进行人工特征工程的必要性,提出了一种通用的三维检测网络——VoxelNet。该网络将特征提取与边界框预测统一为单阶段、端到端可训练的深度神经网络。具体而言,VoxelNet将点云划分为等间距的三维体素(voxel),并通过新提出的体素特征编码(Voxel Feature Encoding, VFE)层,将每个体素内的点群转换为统一的特征表示。由此,点云被编码为具有描述性的体素化表示,并进一步连接至RPN以生成检测结果。在KITTI汽车检测基准上的实验表明,VoxelNet在性能上显著优于现有的基于LiDAR的三维检测方法。此外,该网络能够学习到对具有不同几何形态物体的有效判别性表示,仅基于LiDAR数据便在行人与骑行者三维检测任务中取得了令人鼓舞的结果。