
摘要
图像描述任务近期受到了广泛关注,这得益于深度描述架构所取得的令人印象深刻的成就,这些架构结合了卷积神经网络(Convolutional Neural Networks)用于提取图像表示,以及循环神经网络(Recurrent Neural Networks)用于生成相应的描述。与此同时,大量研究致力于开发显著性预测模型,这些模型可以预测人类的注视点。尽管显著性信息对于调节图像描述架构非常有用,因为它可以提供关于哪些部分是显著的、哪些部分不是显著的信息,但将这两种技术结合起来的研究仍然面临挑战。在本工作中,我们提出了一种图像描述方法,该方法利用显著性预测模型提供的条件信息,使生成式循环神经网络在生成描述时能够关注输入图像的不同部分。通过在大规模数据集上进行广泛的定量和定性实验,我们展示了我们的模型在有无显著性信息的情况下均优于基准图像描述模型,并且在结合显著性和描述的不同最先进方法中也表现出色。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-captioning-on-flickr30k-captions-test | Cornia et al | BLEU-4: 21.3 CIDEr: 46.4 METEOR: 20.0 SPICE: - |