4 个月前

从长期噪声视频中学习多粒度对应关系

从长期噪声视频中学习多粒度对应关系

摘要

现有的视频-语言研究主要集中在学习短片段视频上,由于建模长视频的计算成本过高,长期时间依赖性很少被探索。为了解决这一问题,一个可行的方案是学习视频片段与字幕之间的对应关系,然而这不可避免地会遇到多粒度噪声对应(MNC)问题。具体而言,MNC 指的是视频片段与段落之间的粗粒度错位以及帧与单词之间的细粒度错位,这些错位阻碍了时间学习和视频理解。在本文中,我们提出了一种统一的最优传输框架来解决 MNC 问题的方法——噪声鲁棒时间最优传输(Norton)。简而言之,Norton 利用视频-段落对比损失和片段-字幕对比损失来基于最优传输捕捉长期依赖性。为了应对视频-段落对比中的粗粒度错位,Norton 通过可对齐提示桶过滤掉无关的片段和字幕,并根据传输距离重新对齐不同步的片段-字幕对。为了处理细粒度错位,Norton 引入了一个软最大值算子来识别关键单词和关键帧。此外,Norton 还利用了片段-字幕对比中的潜在错误负样本,通过最优传输分配修正对齐目标以确保精确的时间建模。大量的实验验证了我们的方法在视频检索、视频问答和动作分割任务中的有效性。代码可在 https://lin-yijie.github.io/projects/Norton 获取。

代码仓库

XLearning-SCU/2024-ICLR-Norton
pytorch
GitHub 中提及

基准测试

基准方法指标
action-segmentation-on-coinNorton
Frame accuracy: 69.8
long-video-retrieval-background-removed-onNorton
Cap. Avg. R@1: 75.5
Cap. Avg. R@10: 97.7
Cap. Avg. R@5: 95.0
DTW R@1: 88.7
DTW R@10: 99.5
DTW R@5: 98.8
OTAM R@1: 88.9
OTAM R@10: 99.5
OTAM R@5: 98.4
video-question-answering-on-msrvtt-mcNorton
Accuracy: 92.7
zero-shot-video-retrieval-on-msr-vttNorton
text-to-video R@1: 10.7
text-to-video R@5: 24.1
zero-shot-video-retrieval-on-youcook2Norton
text-to-video R@1: 24.2
text-to-video R@10: 64.1
text-to-video R@5: 51.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从长期噪声视频中学习多粒度对应关系 | 论文 | HyperAI超神经