3 个月前

VLTinT:用于连贯视频段落描述的视觉-语言Transformer-in-Transformer

VLTinT:用于连贯视频段落描述的视觉-语言Transformer-in-Transformer

摘要

视频段落描述(Video Paragraph Captioning)旨在为一段未剪辑的视频生成多句连贯的描述,涵盖其中多个时间事件的位置,并以叙事方式呈现。受人类感知过程的启发——即通过视觉与语言的相互作用,将场景分解为视觉成分(如人物、动物)与非视觉成分(如动作、关系),从而实现对场景的高效理解——我们首次提出一种视觉-语言(Visual-Linguistic, VL)特征表示。在所提出的VL特征中,场景通过三种模态进行建模:(i)全局视觉环境;(ii)局部视觉主体(主要参与者);(iii)语言化场景元素。随后,我们引入一种自回归的Transformer-in-Transformer(TinT)架构,以同时捕捉视频内部事件之间及事件之间的语义连贯性。最后,我们设计了一种新型的VL对比损失函数,以确保学习到的嵌入特征与文本描述在语义上保持一致。在ActivityNet Captions和YouCookII数据集上的大量实验与详尽的消融研究结果表明,所提出的视觉-语言Transformer-in-Transformer(VLTinT)模型在描述准确性和多样性方面均优于现有的最先进方法。项目源代码已公开发布于:https://github.com/UARK-AICV/VLTinT。

代码仓库

uark-aicv/vltint
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-captioning-on-activitynet-captionsVLTinT (ae-test split) C3D/Ling
BLEU4: 14.5
CIDEr: 31.13
METEOR: 17.97
ROUGE-L: 36.56

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VLTinT:用于连贯视频段落描述的视觉-语言Transformer-in-Transformer | 论文 | HyperAI超神经