3 个月前

基于高效关键帧选择的视频字幕生成框架

基于高效关键帧选择的视频字幕生成框架

摘要

视频描述是一项极具挑战性但又极具吸引力的任务,因为它处于计算机视觉与自然语言生成的交叉领域。目前,基于注意力机制的模型在该任务中表现最佳。然而,这些模型普遍采用相似的处理流程,例如将视频分割为帧块,或以等间隔采样帧进行视觉编码。这种帧分割或等间隔采样方式会导致冗余视觉信息的编码,并引入额外的计算开销,因为视频通常由一系列相似帧组成,且不可避免地存在诸如光照不均、遮挡以及运动模糊等噪声问题。本文提出了一种基于边界的关键帧选择方法,用于视频描述任务。该方法能够从视频中选取一个紧凑的关键帧子集,有效编码视觉信息,并在此基础上生成视频描述,而不会造成显著性能下降。实验结果表明,该方法每视频仅需3至4帧,即可在两个基准数据集MSVD和MSR-VTT上实现具有竞争力的性能,且在英文和印地语两种语言下均表现优异。

基准测试

基准方法指标
video-captioning-on-hindi-msr-vttSBD_Keyframe
BLEU4: 41.01

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于高效关键帧选择的视频字幕生成框架 | 论文 | HyperAI超神经