
摘要
近年来,联合视频-语言学习受到了越来越多的关注。然而,现有的研究主要集中在单个或多个剪辑后的视频片段(事件)上,这使得在推理过程中需要人工标注的事件边界。为了摆脱这种限制,我们提出了一种针对未剪辑视频的基于实例的视觉-语言学习框架,该框架能够自动检测信息丰富的事件,并有效挖掘多句描述与相应事件片段之间的对齐关系。不同于粗略级别的视频-语言对齐,我们提出了两个双预训练任务以促进细粒度的片段级对齐,即文本到事件定位(Text-to-Event Grounding, TEG)和事件到文本生成(Event-to-Text Generation, ETG)。TEG通过估计联合语义空间中的跨模态距离来学习自适应地将给定的一组句子定位到可能的事件提案。同时,ETG旨在根据事件提案重建(生成)匹配的文本,促使事件表示保留有意义的语义信息。为鼓励事件集与文本集之间准确的标签分配,我们提出了一种新的语义感知成本函数,以减轻因模糊边界注释导致的次优匹配结果。我们的框架可以轻松扩展到涵盖视觉基础的语言理解和生成任务。我们在ActivityNet Captions、YouCook2和YouMakeup数据集上实现了最先进的密集视频字幕性能,并在其他几个语言生成和理解任务中表现出竞争力。此外,我们的方法在PIC第4届挑战赛的MTVG和MDVC任务中均获得了第一名。我们的代码已公开发布于https://github.com/zjr2000/GVL。
代码仓库
zjr2000/gvl
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| dense-video-captioning-on-activitynet | GVL | CIDEr: 33.33 METEOR: 10.03 SODA: 7.11 |
| dense-video-captioning-on-youcook2 | GVL | CIDEr: 26.52 METEOR: 5.01 SODA: 4.91 |
| natural-language-moment-retrieval-on | GVL | R@1,IoU=0.5: 49.18 R@1,IoU=0.7: 29.69 |
| natural-language-moment-retrieval-on | GVL (paragraph-level) | R@1,IoU=0.5: 60.67 R@1,IoU=0.7: 38.55 |
| natural-language-moment-retrieval-on-tacos | GVL (paragraph-level) | R@1,IoU=0.3: 48.29 R@1,IoU=0.5: 36.07 |
| natural-language-moment-retrieval-on-tacos | GVL | R@1,IoU=0.3: 45.92 R@1,IoU=0.5: 34.57 |