8 个月前

摘要

时间对应关系——即跨帧链接像素或对象——是视频模型中的一个基本监督信号。为了对动态场景进行全景理解，我们进一步将这一概念扩展到每个片段。具体而言，我们的目标是同时学习粗略的片段级匹配和精细的像素级匹配。为此，我们设计了两个新颖的学习目标。为了验证我们的方法，我们采用了深度孪生模型，并训练该模型在执行目标任务的同时学习两个不同层次（即片段和像素）的时间对应关系。在推理阶段，该模型可以独立处理每一帧，无需额外计算和后处理。我们展示了每帧推理模型在Cityscapes-VPS和VIPER数据集上能够取得新的最先进结果。此外，由于其高效率，该模型的运行时间仅为之前最先进方法的三分之一。

源 PDF