4 个月前

DenseCap:用于密集标注的全卷积定位网络

DenseCap:用于密集标注的全卷积定位网络

摘要

我们介绍了密集标注任务,该任务要求计算机视觉系统不仅要在图像中定位显著区域,还要用自然语言描述这些区域。当描述由单个词汇组成时,密集标注任务可以看作是对象检测的泛化;而当一个预测区域覆盖整个图像时,则可以视为图像标注的扩展。为了同时解决定位和描述任务,我们提出了一种全卷积定位网络(Fully Convolutional Localization Network, FCLN)架构,该架构通过一次高效的前向传递即可处理图像,无需外部区域建议,并且可以通过单一优化过程进行端到端训练。该架构由卷积网络、新颖的密集定位层以及生成标签序列的循环神经网络语言模型组成。我们在包含94,000张图像和4,100,000个区域标注的Visual Genome数据集上评估了我们的网络,在生成和检索设置下均观察到了相对于当前最先进方法基线的速度和准确性提升。

代码仓库

jcjohnson/densecap
官方
pytorch

基准测试

基准方法指标
dense-captioning-on-visual-genomeFCLN
mAP: 5.4
object-detection-on-visual-genomeAP (%)
MAP: 5.39

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DenseCap:用于密集标注的全卷积定位网络 | 论文 | HyperAI超神经