HyperAIHyperAI

Command Palette

Search for a command to run...

DiffusionRet:基于扩散模型的生成式文本-视频检索

Peng Jin Hao Li Zesen Cheng Kehan Li Xiangyang Ji Chang Liu Li Yuan Jie Chen

摘要

现有的文本-视频检索方法本质上属于判别式模型,其核心目标是最大化条件概率,即 p(候选项查询)p(\text{候选项}|\text{查询})p(候选项查询)。尽管这一范式实现简单,但其忽略了查询数据本身的潜在分布 p(查询)p(\text{查询})p(查询),导致难以有效识别分布外(out-of-distribution)的数据。为克服这一局限,本文创造性地从生成式视角出发,将文本与视频之间的关联建模为它们的联合概率分布 p(候选项,查询)p(\text{候选项}, \text{查询})p(候选项,查询)。为此,我们提出了一种基于扩散模型的文本-视频检索框架——DiffusionRet,该框架将检索任务建模为从噪声中逐步生成联合分布的过程。在训练过程中,DiffusionRet 同时从生成与判别两个角度进行优化:生成器通过生成损失进行优化,而特征提取器则通过对比损失进行训练。这种设计巧妙地融合了生成模型与判别模型的优势。在五个广泛使用的文本-视频检索基准数据集(包括 MSRVTT、LSMDC、MSVD、ActivityNet Captions 和 DiDeMo)上的大量实验表明,该方法取得了优异的性能。更令人振奋的是,无需任何修改,DiffusionRet 在分布外检索场景下同样表现出色。我们认为,本工作为相关领域提供了重要的理论启示。代码已开源,地址为:https://github.com/jpthu17/DiffusionRet


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供