3 个月前

COOT:用于视频-文本表征学习的协作式分层Transformer

COOT:用于视频-文本表征学习的协作式分层Transformer

摘要

许多现实世界的视频-文本任务涉及不同粒度层次,例如帧与词、片段与句子,或视频与段落,每一层次均具有独特的语义特征。本文提出一种协作式分层Transformer(Cooperative Hierarchical Transformer, COOT),旨在利用这种层次化结构信息,并建模不同粒度层次之间以及多模态之间的交互关系。该方法包含三个核心组件:一个注意力感知的特征聚合层,用于捕捉局部时间上下文信息(即层内交互,如片段内部);一个上下文Transformer模块,用于学习低层与高层语义之间的交互关系(即层间交互,如片段-视频、句子-段落);以及一种跨模态循环一致性损失,用于连接视频与文本模态。实验结果表明,该方法在多个基准测试上均达到或超过当前最优性能,同时模型参数量极少。相关代码已开源,可通过 https://github.com/gingsi/coot-videotext 获取。

代码仓库

gingsi/coot-videotext
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-captioning-on-activitynet-captionsCOOT (ae-test split) - Only Appearance features
BLEU-3: 17.43
BLEU4: 10.85
CIDEr: 28.19
METEOR: 15.99
ROUGE-L: 31.45
video-captioning-on-youcook2COOT
BLEU-3: 17.97
BLEU-4: 11.30
CIDEr: 0.57
METEOR: 19.85
ROUGE-L: 37.94
video-retrieval-on-youcook2COOT
text-to-video Median Rank: 9
text-to-video R@1: 16.7
text-to-video R@10: 52.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
COOT:用于视频-文本表征学习的协作式分层Transformer | 论文 | HyperAI超神经