3 个月前

NITS-VC 系统在 VATEX 视频字幕挑战赛 2020 中的应用

NITS-VC 系统在 VATEX 视频字幕挑战赛 2020 中的应用

摘要

视频字幕生成是指将视频内容、事件及动作以简洁的文本形式进行概括,该技术在视频引导的机器翻译、视频情感分析以及为有需要的个体提供辅助等多个研究领域具有重要应用价值。本文介绍了用于VATEX-2020视频字幕挑战赛的系统框架。我们采用基于编码器-解码器的架构,其中视频的视觉特征通过三维卷积神经网络(3D Convolutional Neural Network, C3D)进行编码;在解码阶段,采用两个独立的长短期记忆网络(Long Short Term Memory, LSTM)分别融合视觉特征与输入字幕,最终通过两个LSTM输出的逐元素乘积生成最终字幕。实验结果表明,该模型在公开测试集和私有测试集上分别取得了BLEU分数0.20和0.22的成绩。

基准测试

基准方法指标
video-captioning-on-vatex-1NITS-VC
BLEU-4: 20.0
CIDEr: 24.0
METEOR: 18.0
ROUGE-L: 42.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
NITS-VC 系统在 VATEX 视频字幕挑战赛 2020 中的应用 | 论文 | HyperAI超神经