Command Palette
Search for a command to run...
Julieta Martinez; Rayat Hossain; Javier Romero; James J. Little

摘要
在深度卷积网络取得成功之后,最先进的三维人体姿态估计方法主要集中在从原始图像像素直接预测三维关节位置的深度端到端系统上。尽管这些系统的性能非常出色,但通常很难判断其剩余误差是源于有限的二维姿态(视觉)理解,还是由于将二维姿态映射到三维空间时出现的失败。为了理解这些误差来源,我们着手构建一个系统,该系统基于给定的二维关节位置来预测三维位置。令我们惊讶的是,我们发现利用当前技术,“提升”(lifting)真实二维关节位置到三维空间的任务可以以极低的误差率解决:一个相对简单的深度前馈网络在Human3.6M数据集上的表现比之前报道的最佳结果提高了约30%,而Human3.6M是目前最大的公开可用的三维姿态估计基准数据集。此外,使用现成的最先进二维检测器输出作为输入训练我们的系统时,也能获得最先进的结果——这包括了专门为该任务进行端到端训练的一系列系统。我们的研究结果表明,现代深度三维人体姿态估计系统的大部分误差来源于其视觉分析,并为未来进一步提高三维人体姿态估计的技术水平指明了方向。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-3dpw | Simple-baseline | PA-MPJPE: 157.0 |
| 3d-human-pose-estimation-on-human36m | SIM (GT detections) (MA) | Average MPJPE (mm): 45.5 Using 2D ground-truth joints: Yes |
| 3d-human-pose-estimation-on-human36m | SIM (SH detections FT) (MA) | Average MPJPE (mm): 62.9 Multi-View or Monocular: Monocular Using 2D ground-truth joints: No |
| 3d-human-pose-estimation-on-human36m | SIM (SH detections) (MA) | Average MPJPE (mm): 67.5 |
| 3d-human-pose-estimation-on-humaneva-i | SIM (SH detections) | Mean Reconstruction Error (mm): 24.6 |
| monocular-3d-human-pose-estimation-on-human3 | SIM (SH detections FT) (MA) | Average MPJPE (mm): 62.9 Frames Needed: 1 Need Ground Truth 2D Pose: No Use Video Sequence: No |