4 个月前

层次多模态变压器用于视频摘要

层次多模态变压器用于视频摘要

摘要

尽管循环神经网络(Recurrent Neural Networks, RNN)在视频摘要生成中取得了巨大成功,但基于RNN的方法忽视了视频帧之间的全局依赖性和多跳关系,这限制了其性能。Transformer是一种有效的模型,能够解决这一问题,并在机器翻译、视频字幕生成等序列建模任务中超越了基于RNN的方法。受Transformer的巨大成功以及视频的自然结构(帧-镜头-视频)的启发,我们开发了一种层次化的Transformer用于视频摘要生成,该模型可以捕捉帧和镜头之间的依赖关系,并通过利用由镜头组成的场景信息来总结视频。此外,我们认为音频和视觉信息对于视频摘要任务都是至关重要的。为了整合这两种信息,我们采用了双流编码方案,并在此基础上开发了一种多模态融合机制。本文提出的方法被命名为层次化多模态Transformer(Hierarchical Multimodal Transformer, HMT)。实际上,大量的实验表明,HMT在传统方法、基于RNN的方法和基于注意力机制的视频摘要生成方法中表现优异,超越了大多数现有方法。

基准测试

基准方法指标
supervised-video-summarization-on-summeHMT
F1-score (Augmented): 44.8
F1-score (Canonical): 44.1
Kendall's Tau: 0.079
Spearman's Rho: 0.080
supervised-video-summarization-on-tvsumHMT
F1-score (Augmented): 60.3
F1-score (Canonical): 60.1
Kendall's Tau: 0.096
Spearman's Rho: 0.107

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
层次多模态变压器用于视频摘要 | 论文 | HyperAI超神经