
摘要
本技术报告简要介绍了我们针对ActivityNet Challenge 2020密集视频字幕任务的参赛方案。我们的方法采用两阶段流水线架构:首先,提取一组时间事件候选片段;随后,提出一种多事件字幕生成模型,以捕捉事件级别的时序关系,并有效融合多模态信息。在测试集上,该方法取得了9.28的METEOR得分。
代码仓库
ttengwang/dense-video-captioning-pytorch
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| dense-video-captioning-on-activitynet | TSRM-CMG-HRNN+SCST | METEOR: 9.71 |