3 个月前

CLIP 遇上视频字幕生成:概念感知的表征学习至关重要

CLIP 遇上视频字幕生成:概念感知的表征学习至关重要

摘要

在视频字幕生成任务中,“预训练-微调”已成为一种事实上的范式:通常采用ImageNet预训练(INP)对视频内容进行编码,随后从头训练一个面向任务的网络以完成字幕生成。本文首次系统研究了近期提出的CLIP(对比语言-图像预训练)模型在视频字幕任务中的影响。通过对比INP与CLIP的实证分析,我们揭示了INP在语义建模方面的潜在局限性,并深入探讨了实现准确描述生成的关键因素。实验结果表明,基于INP的模型在捕捉概念语义方面表现不佳,且对无关背景信息较为敏感;相比之下,基于CLIP的模型显著提升了字幕质量,凸显了概念感知表征学习的重要性。基于上述发现,本文进一步提出双概念检测(Dual Concept Detection, DCD)机制,在训练过程中向模型注入概念知识。DCD作为一种辅助任务,要求字幕模型学习视频内容与概念之间的对应关系,以及概念间的共现关系。在MSR-VTT和VATEX数据集上的实验验证了DCD的有效性,可视化结果进一步证实了学习概念感知表征的必要性。

代码仓库

yangbang18/CLIP-Captioner
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-captioning-on-msr-vtt-1CLIP-DCD
BLEU-4: 48.2
CIDEr: 58.7
METEOR: 31.3
ROUGE-L: 64.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CLIP 遇上视频字幕生成:概念感知的表征学习至关重要 | 论文 | HyperAI超神经