4 个月前

VideoLights:用于联合视频亮点检测和时刻检索的特征精炼与跨任务对齐变压器

VideoLights:用于联合视频亮点检测和时刻检索的特征精炼与跨任务对齐变压器

摘要

视频亮点检测和时刻检索(HD/MR)在视频分析中至关重要。近期的联合预测变压器模型常常忽视跨任务动态以及视频与文本的对齐和精炼。此外,大多数模型通常使用有限的单向注意力机制,导致表示集成较弱,无法有效捕捉视频和文本模态之间的相互依赖关系。尽管大型语言模型和视觉-语言模型(LLM/LVLMs)在各个领域中逐渐崭露头角,但它们在这一领域的应用仍相对较少探索。本文提出了一种新的HD/MR框架——VideoLights,旨在通过以下方法解决这些限制:(i) 使用卷积投影和特征精炼模块,并引入对齐损失以实现更好的视频-文本特征对齐;(ii) 引入双向跨模态融合网络以生成强耦合的查询感知片段表示;(iii) 采用单向联合任务反馈机制,通过相关性增强两个任务的表现;(iv) 引入硬正例/负例损失以实现自适应错误惩罚和改进学习效果;(v) 利用如BLIP-2等LVLMs进行增强的多模态特征集成,并使用由LVLMs生成的合成数据进行智能预训练。在QVHighlights、TVSum和Charades-STA基准上的全面实验表明,该框架达到了最先进的性能。代码和模型可在https://github.com/dpaul06/VideoLights 获取。

代码仓库

dpaul06/VideoLights
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
highlight-detection-on-qvhighlightsVideoLights-B-pt
Hit@1: 70.56
mAP: 42.84
moment-retrieval-on-charades-staVideoLights-B-pt
R@1 IoU=0.3: 73.33
R@1 IoU=0.5: 61.96
R@1 IoU=0.7: 41.05
mIoU: 52.94
moment-retrieval-on-qvhighlightsVideoLights-B-pt
R@1 IoU=0.5: 70.36
R@1 IoU=0.7: 55.25
mAP: 47.94
mAP@0.5: 69.53
mAP@0.75: 49.17

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VideoLights:用于联合视频亮点检测和时刻检索的特征精炼与跨任务对齐变压器 | 论文 | HyperAI超神经