Command Palette
Search for a command to run...
Rowan Zellers¹ Mark Yatskar¹,² Sam Thomson³ Yejin Choi¹,²

摘要
我们研究了生成视觉场景的结构化图表示的问题。本工作分析了图中的模体(motifs)的作用:即场景图中经常出现的子结构。我们在Visual Genome数据集中展示了这些重复结构的新定量见解。分析表明,对象标签对关系标签具有很高的预测性,但反之则不然。我们还发现,即使在较大的子图中也存在重复模式:超过50%的图包含涉及至少两个关系的模体。我们的分析激发了一种新的基线方法:给定对象检测结果,预测训练集中具有相同标签的对象对之间最频繁的关系。该基线方法在不同评估设置下相对于先前的最先进方法平均提高了3.6%。随后,我们引入了堆叠模体网络(Stacked Motif Networks),这是一种旨在捕捉场景图中高阶模体的新架构,进一步在我们的强基线方法上实现了平均7.1%的相对提升。我们的代码可在github.com/rowanz/neural-motifs获取。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| panoptic-scene-graph-generation-on-psg | MOTIFS | R@20: 20.0 mR@20: 9.10 |