6 个月前

摘要

现有的文本-视频检索方法本质上属于判别式模型，其核心目标是最大化条件概率，即 $p(\text{候选项}|\text{查询})$ 。尽管这一范式实现简单，但其忽略了查询数据本身的潜在分布 $p(\text{查询})$ ，导致难以有效识别分布外（out-of-distribution）的数据。为克服这一局限，本文创造性地从生成式视角出发，将文本与视频之间的关联建模为它们的联合概率分布 $p(\text{候选项}, \text{查询})$ 。为此，我们提出了一种基于扩散模型的文本-视频检索框架——DiffusionRet，该框架将检索任务建模为从噪声中逐步生成联合分布的过程。在训练过程中，DiffusionRet 同时从生成与判别两个角度进行优化：生成器通过生成损失进行优化，而特征提取器则通过对比损失进行训练。这种设计巧妙地融合了生成模型与判别模型的优势。在五个广泛使用的文本-视频检索基准数据集（包括 MSRVTT、LSMDC、MSVD、ActivityNet Captions 和 DiDeMo）上的大量实验表明，该方法取得了优异的性能。更令人振奋的是，无需任何修改，DiffusionRet 在分布外检索场景下同样表现出色。我们认为，本工作为相关领域提供了重要的理论启示。代码已开源，地址为：https://github.com/jpthu17/DiffusionRet。