3 个月前

一种用于场景图生成的增强型目标检测模型

一种用于场景图生成的增强型目标检测模型

摘要

随着计算机视觉技术的不断进步,为解决语义图像检索、图像字幕生成以及场景理解等更为复杂的任务,亟需实现更高层次的理解能力。场景理解因其高度复杂性以及缺乏有效的数据表示方式,长期以来一直是研究的重点课题。场景图(Scene Graph)作为一种强大的数据表示形式,能够更有效地捕捉场景的上下文信息,因而受到广泛关注。场景图的任务在于编码场景中所呈现的物体、其属性,以及物体之间的相互关系。由于场景图在复杂任务中展现出显著的能力,其自动生成的自动化已成为研究的迫切需求。为此,已有大量研究致力于利用不同的深度学习架构生成高精度的场景图。在这些架构中,物体检测模块是共有的核心组件,其作用是在输入图像中首先定位出各个物体。本文提出采用YOLOv5系列中最新的物体检测器——YOLOv5x6,用于场景图生成任务。实验结果表明,所提出的YOLOv5x6在该任务上取得了32.7的平均精度均值(mean average precision, mAP),达到了当前最先进的水平。此外,本文还系统回顾了文献中用于场景图生成任务的各类物体检测器。

基准测试

基准方法指标
object-detection-on-visual-genomeYOLOv5x6
MAP: 32.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种用于场景图生成的增强型目标检测模型 | 论文 | HyperAI超神经