
摘要
许多现实世界的视频-文本任务涉及不同粒度层次,例如帧与词、片段与句子,或视频与段落,每一层次均具有独特的语义特征。本文提出一种协作式分层Transformer(Cooperative Hierarchical Transformer, COOT),旨在利用这种层次化结构信息,并建模不同粒度层次之间以及多模态之间的交互关系。该方法包含三个核心组件:一个注意力感知的特征聚合层,用于捕捉局部时间上下文信息(即层内交互,如片段内部);一个上下文Transformer模块,用于学习低层与高层语义之间的交互关系(即层间交互,如片段-视频、句子-段落);以及一种跨模态循环一致性损失,用于连接视频与文本模态。实验结果表明,该方法在多个基准测试上均达到或超过当前最优性能,同时模型参数量极少。相关代码已开源,可通过 https://github.com/gingsi/coot-videotext 获取。
代码仓库
gingsi/coot-videotext
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-captioning-on-activitynet-captions | COOT (ae-test split) - Only Appearance features | BLEU-3: 17.43 BLEU4: 10.85 CIDEr: 28.19 METEOR: 15.99 ROUGE-L: 31.45 |
| video-captioning-on-youcook2 | COOT | BLEU-3: 17.97 BLEU-4: 11.30 CIDEr: 0.57 METEOR: 19.85 ROUGE-L: 37.94 |
| video-retrieval-on-youcook2 | COOT | text-to-video Median Rank: 9 text-to-video R@1: 16.7 text-to-video R@10: 52.3 |