4 个月前

你还记得吗?基于跨模态记忆检索的密集视频字幕生成

你还记得吗?基于跨模态记忆检索的密集视频字幕生成

摘要

密集视频字幕生成研究引起了广泛关注,其目标是自动定位并描述未剪辑视频中的所有事件。一些研究通过将密集视频字幕生成设计为事件定位和事件描述的多任务问题,引入了考虑任务间关系的方法。然而,仅使用视觉输入来解决这两个任务具有挑战性,因为缺乏语义内容。在本研究中,我们提出了一种受人类认知信息处理启发的新框架来应对这一挑战。我们的模型利用外部记忆来整合先验知识。为此,我们提出了一种基于跨模态视频-文本匹配的记忆检索方法。为了有效融合检索到的文本特征,我们设计了一个多功能编码器和一个包含视觉和文本交叉注意力模块的解码器。我们在ActivityNet Captions和YouCook2数据集上进行了对比实验,以展示所提方法的有效性。实验结果表明,即使没有从大规模视频数据集中进行广泛的预训练,我们的模型仍表现出令人鼓舞的性能。

代码仓库

ailab-kyunghee/cm2_dvc
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
dense-video-captioning-on-activitynetCM²
BLEU4: 2.38
CIDEr: 33.01
F1: 55.21
METEOR: 8.55
Precision: 56.81
Recall: 53.71
SODA: 6.18
dense-video-captioning-on-youcook2CM²
BLEU4: 1.63
CIDEr: 31.66
F1: 28.43
METEOR: 6.08
Precision: 33.38
Recall: 24.76
SODA: 5.34

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
你还记得吗?基于跨模态记忆检索的密集视频字幕生成 | 论文 | HyperAI超神经