3 个月前

Tem-Adapter:面向视频问答的图像-文本预训练适配

Tem-Adapter:面向视频问答的图像-文本预训练适配

摘要

视频-语言预训练模型在引导视频问答(VideoQA)任务方面已展现出显著成效。然而,由于视频序列长度较长,训练大规模基于视频的模型所耗费的成本远高于基于图像的模型。这一现实促使我们探索利用基于图像的预训练知识,尽管图像与视频领域之间存在明显差异。为弥合这些差异,本文提出Tem-Adapter,该方法通过视觉时序对齐器(Visual Temporal Aligner)与文本语义对齐器(Textual Semantic Aligner)协同实现对时序动态和复杂语义的学习。与传统仅聚焦下游任务目标的预训练知识迁移方法不同,时序对齐器引入了一项额外的语言引导自回归任务,旨在促进时序依赖关系的学习——即基于历史线索及描述事件演进过程的语言引导信息,预测未来的状态。此外,为缩小语义鸿沟并优化文本表示以更准确地描述事件,本文设计了语义对齐器:首先构建模板,将问题与答案对融合为事件描述;随后,以完整视频序列作为引导,通过一个Transformer解码器进行精细化学习。我们在两个VideoQA基准数据集上对Tem-Adapter及多种预训练迁移方法进行了评估,实验结果表明,所提方法在性能上取得显著提升,充分验证了其有效性。

代码仓库

xliu443/tem-adapter
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-sutd-trafficqaTem-adapter
1/4: 46.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Tem-Adapter:面向视频问答的图像-文本预训练适配 | 论文 | HyperAI超神经