HyperAIHyperAI

Command Palette

Search for a command to run...

COOT:用于视频-文本表征学习的协作式分层Transformer

Simon Ging Mohammadreza Zolfaghari Hamed Pirsiavash Thomas Brox

摘要

许多现实世界的视频-文本任务涉及不同粒度层次,例如帧与词、片段与句子,或视频与段落,每一层次均具有独特的语义特征。本文提出一种协作式分层Transformer(Cooperative Hierarchical Transformer, COOT),旨在利用这种层次化结构信息,并建模不同粒度层次之间以及多模态之间的交互关系。该方法包含三个核心组件:一个注意力感知的特征聚合层,用于捕捉局部时间上下文信息(即层内交互,如片段内部);一个上下文Transformer模块,用于学习低层与高层语义之间的交互关系(即层间交互,如片段-视频、句子-段落);以及一种跨模态循环一致性损失,用于连接视频与文本模态。实验结果表明,该方法在多个基准测试上均达到或超过当前最优性能,同时模型参数量极少。相关代码已开源,可通过 https://github.com/gingsi/coot-videotext 获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供