3 个月前

看得更深,见得更丰:面向深度感知的图像段落描述生成

看得更深,见得更丰:面向深度感知的图像段落描述生成

摘要

随着句子级图像描述技术的广泛应用,如何实现图像段落的自动生成仍鲜有深入研究。以完整段落形式描述图像,不仅需要对句子进行有序、连贯且多样化的组织,其复杂性也远高于单句描述。现有的图像段落描述方法通常生成一系列句子来表征图像中的对象与感兴趣区域,其描述内容本质上是将包含特定对象或区域的图像片段输入传统的单句图像描述模型而获得。然而,该策略难以保证描述在空间层次上的立体性以及对象之间的非重叠性。为此,本文提出一种深度感知注意力模型(Depth-aware Attention Model, DAM),用于生成图像段落描述。该模型首先估计图像各区域的深度信息,以区分不同空间位置上的对象,进而引导语言解码器揭示对象之间的空间关系。该方法能够以逻辑清晰、连贯一致的方式完成段落生成。通过引入注意力机制,模型在生成段落过程中可快速调整句子关注焦点,同时避免对同一对象进行冗余描述。我们在 Visual Genome 数据集上进行了大量定量实验与用户研究,结果表明,所提出的模型在生成效果与可解释性方面均具有显著优势。

基准测试

基准方法指标
image-paragraph-captioning-on-image-paragraphDepth-aware Attention Model (DAM)
BLEU-4: 6.7
CIDEr: 17.3
METEOR: 13.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
看得更深,见得更丰:面向深度感知的图像段落描述生成 | 论文 | HyperAI超神经