6 个月前

计算机视觉

Rajat Koner Tanveer Hannan Suprosanna Shit Sahand Sharifzadeh Matthias Schubert Thomas Seidl Volker Tresp

摘要

基于Transformer的离线视频实例分割（VIS）方法近期取得了令人鼓舞的成果，显著优于在线方法。然而，这些方法依赖于完整的视频输入，且由于采用全时空注意力机制导致巨大的计算复杂度，限制了其在实际应用中的推广，尤其是在处理长时视频时。本文提出了一种单阶段、基于Transformer的高效在线VIS框架——InstanceFormer，特别适用于长时且具有挑战性的视频。我们设计了三个新颖组件，以建模短期与长期依赖关系以及时间一致性：首先，通过传播先前实例的表征、位置和语义信息，捕捉短期变化；其次，我们在解码器中提出一种新型的记忆交叉注意力机制，使网络能够在一定时间窗口内回顾早期的实例；最后，引入一种时间对比损失（temporal contrastive loss），以强制同一实例在所有帧间的表征保持一致性。记忆注意力机制与时间一致性建模对长程依赖关系的捕捉尤为有益，尤其在遮挡等复杂场景下表现突出。实验结果表明，InstanceFormer在多个数据集上显著超越了现有的在线基准方法；更重要的是，它在YouTube-VIS-2021和OVIS等具有挑战性的长视频数据集上，性能甚至超过了部分离线方法。代码已开源，地址为：https://github.com/rajatkoner08/InstanceFormer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Rajat Koner Tanveer Hannan Suprosanna Shit Sahand Sharifzadeh Matthias Schubert Thomas Seidl Volker Tresp

摘要

基于Transformer的离线视频实例分割（VIS）方法近期取得了令人鼓舞的成果，显著优于在线方法。然而，这些方法依赖于完整的视频输入，且由于采用全时空注意力机制导致巨大的计算复杂度，限制了其在实际应用中的推广，尤其是在处理长时视频时。本文提出了一种单阶段、基于Transformer的高效在线VIS框架——InstanceFormer，特别适用于长时且具有挑战性的视频。我们设计了三个新颖组件，以建模短期与长期依赖关系以及时间一致性：首先，通过传播先前实例的表征、位置和语义信息，捕捉短期变化；其次，我们在解码器中提出一种新型的记忆交叉注意力机制，使网络能够在一定时间窗口内回顾早期的实例；最后，引入一种时间对比损失（temporal contrastive loss），以强制同一实例在所有帧间的表征保持一致性。记忆注意力机制与时间一致性建模对长程依赖关系的捕捉尤为有益，尤其在遮挡等复杂场景下表现突出。实验结果表明，InstanceFormer在多个数据集上显著超越了现有的在线基准方法；更重要的是，它在YouTube-VIS-2021和OVIS等具有挑战性的长视频数据集上，性能甚至超过了部分离线方法。代码已开源，地址为：https://github.com/rajatkoner08/InstanceFormer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供