摘要
与图像字幕生成相比,视频字幕生成是一项更具挑战性的任务,主要源于内容密度的差异。视频数据通常包含大量冗余的视觉信息,这使得字幕生成模型难以有效泛化多样化的语义内容,容易受到无关信息的干扰。此外,视频中的冗余内容在标注时未能充分精简以匹配真实标签(ground truth)所对应的视觉语义,进一步加剧了任务难度。当前视频字幕研究主要集中于字幕生成器(captioner)的架构设计,而忽视了内容密度对生成性能的显著影响。考虑到视频与图像在结构和语义表达上的本质差异,我们提出一种新的优化思路:利用简洁且易于学习的图像样本,增强视频样本的多样性,从而调节内容密度。通过这种调整,促使字幕生成器在面对冗余和模糊信息时,能够更有效地学习视频语义。本文提出一种名为图像复合学习(Image-Compounded learning for video Captioners, IcoCap)的新方法,以促进复杂视频语义的高效学习。IcoCap由两个核心模块构成:图像-视频复合策略(Image-Video Compounding Strategy, ICS)与视觉-语义引导字幕生成(Visual-Semantic Guided Captioning, VGC)。ICS将易于学习的图像语义信息融合进视频语义中,进一步丰富视频样本的多样性,促使网络在更具差异性的样本上进行泛化学习。同时,在包含图像语义信息的复合样本上进行训练,迫使字幕生成器在清晰的图像语义背景下,更精准地提取视频中真正有价值的视觉线索,从而增强对关键信息的关注,有效过滤无关内容。随后,VGC模块基于复合样本,引导网络灵活学习真实标签(ground truth)字幕,缓解真实标签与视频样本中模糊语义之间的不匹配问题。实验结果表明,IcoCap在提升字幕生成器学习能力方面具有显著效果。在广泛使用的MSVD、MSR-VTT和VATEX数据集上,该方法均取得了与当前最优方法相当甚至更优的性能,充分验证了其在处理冗余与模糊视频数据方面的强大能力。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-captioning-on-msr-vtt-1 | IcoCap (ViT-B/16) | BLEU-4: 47.0 CIDEr: 60.2 METEOR: 31.1 ROUGE-L: 64.9 |
| video-captioning-on-msr-vtt-1 | IcoCap (ViT-B/32) | BLEU-4: 46.1 CIDEr: 59.1 METEOR: 30.3 ROUGE-L: 64.3 |
| video-captioning-on-msvd-1 | IcoCap (ViT-B/32) | BLEU-4: 56.3 CIDEr: 103.8 METEOR: 38.9 ROUGE-L: 75.0 |
| video-captioning-on-msvd-1 | IcoCap (ViT-B/16) | BLEU-4: 59.1 CIDEr: 110.3 METEOR: 39.5 ROUGE-L: 76.5 |
| video-captioning-on-vatex-1 | IcoCap (ViT-B/32) | BLEU-4: 36.9 CIDEr: 63.4 METEOR: 24.6 ROUGE-L: 52.5 |
| video-captioning-on-vatex-1 | IcoCap (ViT-B/16) | BLEU-4: 37.4 CIDEr: 67.8 METEOR: 25.7 ROUGE-L: 53.1 |