
摘要
自动描述图像内容是人工智能领域的一个基本问题,它连接了计算机视觉和自然语言处理。在本文中,我们提出了一种基于深度递归架构的生成模型,该模型结合了计算机视觉和机器翻译领域的最新进展,可用于生成描述图像的自然句子。该模型通过最大化给定训练图像的目标描述句子的概率来进行训练。我们在多个数据集上进行了实验,结果表明该模型不仅准确度高,而且所学习的语言流畅。我们从定性和定量两个方面验证了模型的准确性。例如,在Pascal数据集上,当前最先进的BLEU-1分数(越高越好)为25,而我们的方法达到了59,接近人类的表现约为69。此外,在Flickr30k数据集上,我们的BLEU-1分数从56提高到66;在SBU数据集上,从19提高到28。最后,在新发布的COCO数据集上,我们实现了27.7的BLEU-4分数,这是目前最先进的水平。
代码仓库
kirbiyik/caption-it
pytorch
GitHub 中提及
hashi0203/image-captioning
pytorch
GitHub 中提及
atun-MEI/AI-Course-Final
GitHub 中提及
Chloejay/image_caption_app
tf
GitHub 中提及
fanchenyou/deepdiary
GitHub 中提及
supreethub/Image-Captioning
pytorch
GitHub 中提及
gulshanBakle/Neural-Image-Caption-generator
pytorch
GitHub 中提及
guptakhil12/show-tell
pytorch
neerav47/Image-Captioning
pytorch
GitHub 中提及
simnyatsanga/image-caption-generator
tf
GitHub 中提及
studian/CVND_P2_Image_Captioning
pytorch
GitHub 中提及
leob03/Image_captionning
pytorch
GitHub 中提及
gfoxx29/Image-Captioning
pytorch
GitHub 中提及
hx19940102/Image-Captioning
tf
GitHub 中提及
SathwikTejaswi/Neural-Image-Captioning
pytorch
GitHub 中提及
nalbert9/Image-Captioning
pytorch
GitHub 中提及
yurayli/image_caption_pytorch
pytorch
GitHub 中提及
Mrnoorsingh/image-caption
GitHub 中提及
danielajisafe/Image-Captioning-Model
pytorch
GitHub 中提及
codehacpj/Image_description
pytorch
GitHub 中提及
koles289/udacity-Image-Captioning
pytorch
GitHub 中提及
yuyay/chainer_nic
GitHub 中提及
VinitSR7/Image-Caption-Generation
tf
GitHub 中提及
kauravin/Neural-Visual-Image-Caption-Generation-using-RNNs-and-LSTMs
pytorch
GitHub 中提及
am-sirdaniel/Image-Captioning-Model
pytorch
GitHub 中提及
samim23/NeuralTalkAnimator
GitHub 中提及
anitakumarijena/Image_Captioning
pytorch
GitHub 中提及
NicholasKX/ShowAndTell
mindspore
GitHub 中提及
nikhilmaram/Show_and_Tell
tf
GitHub 中提及
maz0318/nlpSummerCamp2019
pytorch
GitHub 中提及
Wence-May/Image-Annotation
GitHub 中提及
yashk2810/Image-Captioning
tf
GitHub 中提及
alex-f1tor/Image-Caption
pytorch
GitHub 中提及
atharv6/Image-Captioning
pytorch
GitHub 中提及
CSDN-AI7/image_caption
tf
GitHub 中提及
TilakD/Image-Captioning
GitHub 中提及
nithishkaviyan/Show-and-Tell-Neural-Network-Image-Caption-Generator-
pytorch
GitHub 中提及
rebnej/lick-caption-bias
pytorch
GitHub 中提及
yurayli/image-caption-pytorch
pytorch
GitHub 中提及
rishavbb/Image_Captioning
tf
GitHub 中提及
juletx/image-caption-generation
tf
GitHub 中提及
Pranav-Patil-7/Automatic_Image_Captioning_Project
pytorch
GitHub 中提及
sd2001/Image2Caption
tf
GitHub 中提及
kenkai21/Image_Captioning
pytorch
GitHub 中提及
Neznakomec/ml-project-transformers
pytorch
GitHub 中提及
shangeth/Vehicle_Speed_Estimation
GitHub 中提及
bmy4415/DMLAB-intern
tf
GitHub 中提及
ag17sep/Image-Captioning-Project
pytorch
GitHub 中提及
nishimehta/Image_Captioning
tf
GitHub 中提及
saubhik/chainer-image-captioning
GitHub 中提及
AndreiMoraru123/Watch-and-Tell
pytorch
GitHub 中提及
Cathy-t/HELLO_image
pytorch
GitHub 中提及
anirbrhm/ImageCaptioning
pytorch
GitHub 中提及
stingram/CV_Image_Captioning
pytorch
GitHub 中提及
pskrunner14/descriptor
pytorch
GitHub 中提及
nicolafan/image-captioning-cnn-rnn
tf
GitHub 中提及
oarriaga/neural_image_captioning
GitHub 中提及
chunlei2/show-and-tell
pytorch
GitHub 中提及
sd2001/Auto-Image2Caption
tf
GitHub 中提及
AndreiMoraru123/ContextCollector
pytorch
GitHub 中提及
sovit-123/Deep-Learning-Image-Captioning
tf
GitHub 中提及
longjj/Caffe-SGDR
GitHub 中提及
jazzsaxmafia/show_and_tell.tensorflow
tf
GitHub 中提及
Djmcflush/Quantum-Hackathon
tf
GitHub 中提及
matakshay/Neural_Image_Caption_Generator
tf
GitHub 中提及
Pillercottrer/radcap_project
pytorch
GitHub 中提及
Data-drone/cvnd_image_captioning
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-retrieval-with-multi-modal-query-on | Show and Tell | Recall@1: 12.3 Recall@10: 40.2 Recall@50: 61.8 |
| image-retrieval-with-multi-modal-query-on-mit | Show and Tell | Recall@1: 11.9 Recall@10: 42.0 Recall@5: 31.0 |