HyperAIHyperAI

Command Palette

Search for a command to run...

基于显著性的DETR用于时刻检索和高光检测

Gordeev Aleksandr ; Dokholyan Vladimir ; Tolstykh Irina ; Kuprashevich Maksim

摘要

现有的视频片段检索和高光检测方法无法高效地对齐文本和视频特征,导致性能不尽如人意且在实际应用中受到限制。为了解决这一问题,我们提出了一种新颖的架构,该架构利用了最近设计用于此类对齐的基础视频模型。结合引入的显著性引导交叉注意力机制(Saliency-Guided Cross Attention)和混合DETR架构,我们的方法在片段检索和高光检测任务中显著提升了性能。为了进一步改进,我们开发了InterVid-MR,这是一个大规模且高质量的数据集,用于预训练。通过使用该数据集,我们的架构在QVHighlights、Charades-STA和TACoS基准测试中取得了最先进的结果。所提出的方法为视频-语言任务中的零样本学习和微调场景提供了一个高效且可扩展的解决方案。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于显著性的DETR用于时刻检索和高光检测 | 论文 | HyperAI超神经