
摘要
视频亮点检测和时刻检索(HD/MR)在视频分析中至关重要。近期的联合预测变压器模型常常忽视跨任务动态以及视频与文本的对齐和精炼。此外,大多数模型通常使用有限的单向注意力机制,导致表示集成较弱,无法有效捕捉视频和文本模态之间的相互依赖关系。尽管大型语言模型和视觉-语言模型(LLM/LVLMs)在各个领域中逐渐崭露头角,但它们在这一领域的应用仍相对较少探索。本文提出了一种新的HD/MR框架——VideoLights,旨在通过以下方法解决这些限制:(i) 使用卷积投影和特征精炼模块,并引入对齐损失以实现更好的视频-文本特征对齐;(ii) 引入双向跨模态融合网络以生成强耦合的查询感知片段表示;(iii) 采用单向联合任务反馈机制,通过相关性增强两个任务的表现;(iv) 引入硬正例/负例损失以实现自适应错误惩罚和改进学习效果;(v) 利用如BLIP-2等LVLMs进行增强的多模态特征集成,并使用由LVLMs生成的合成数据进行智能预训练。在QVHighlights、TVSum和Charades-STA基准上的全面实验表明,该框架达到了最先进的性能。代码和模型可在https://github.com/dpaul06/VideoLights 获取。
代码仓库
dpaul06/VideoLights
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| highlight-detection-on-qvhighlights | VideoLights-B-pt | Hit@1: 70.56 mAP: 42.84 |
| moment-retrieval-on-charades-sta | VideoLights-B-pt | R@1 IoU=0.3: 73.33 R@1 IoU=0.5: 61.96 R@1 IoU=0.7: 41.05 mIoU: 52.94 |
| moment-retrieval-on-qvhighlights | VideoLights-B-pt | R@1 IoU=0.5: 70.36 R@1 IoU=0.7: 55.25 mAP: 47.94 mAP@0.5: 69.53 mAP@0.75: 49.17 |