4 个月前

全景场景图生成

全景场景图生成

摘要

现有的研究从检测的角度出发,探讨了场景图生成(Scene Graph Generation, SGG)——这是图像场景理解中的一项关键技术。具体而言,这些方法首先使用边界框检测对象,然后预测它们之间的两两关系。我们认为,这种范式导致了若干问题,阻碍了该领域的进展。例如,当前数据集中的基于边界框的标签通常包含冗余的类别如头发,并且忽略了对理解上下文至关重要的背景信息。在本工作中,我们引入了一种新的任务——全景场景图生成(Panoptic Scene Graph Generation, PSG),该任务要求模型根据全景分割而非刚性的边界框生成更为全面的场景图表示。为了跟踪该领域的进展,我们为社区创建了一个高质量的PSG数据集,其中包含来自COCO和Visual Genome的49000张标注良好的重叠图像。为了进行基准测试,我们构建了四种两阶段基线模型,这些模型是对经典SGG方法的改进;以及两种单阶段基线模型PSGTR和PSGFormer,这两种模型基于高效的Transformer检测器(即DETR)。PSGTR通过一组查询直接学习三元组,而PSGFormer则通过两个Transformer解码器分别建模对象和关系的形式查询,并随后采用一种类似于提示的关系-对象匹配机制。最后,我们分享了关于开放挑战和未来方向的一些见解。

代码仓库

Jingkang50/OpenPSG
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
panoptic-scene-graph-generation-on-psgPSGTR
R@20: 28.4
mR@20: 16.6
panoptic-scene-graph-generation-on-psgPSGFormer
R@20: 18.0
mR@20: 14.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
全景场景图生成 | 论文 | HyperAI超神经