
摘要
视频字幕生成是指将视频内容、事件及动作以简洁的文本形式进行概括,该技术在视频引导的机器翻译、视频情感分析以及为有需要的个体提供辅助等多个研究领域具有重要应用价值。本文介绍了用于VATEX-2020视频字幕挑战赛的系统框架。我们采用基于编码器-解码器的架构,其中视频的视觉特征通过三维卷积神经网络(3D Convolutional Neural Network, C3D)进行编码;在解码阶段,采用两个独立的长短期记忆网络(Long Short Term Memory, LSTM)分别融合视觉特征与输入字幕,最终通过两个LSTM输出的逐元素乘积生成最终字幕。实验结果表明,该模型在公开测试集和私有测试集上分别取得了BLEU分数0.20和0.22的成绩。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-captioning-on-vatex-1 | NITS-VC | BLEU-4: 20.0 CIDEr: 24.0 METEOR: 18.0 ROUGE-L: 42.0 |