8 个月前

计算机视觉

Ho Kei Cheng; Seoung Wug Oh; Brian Price; Joon-Young Lee; Alexander Schwing

摘要

我们介绍了Cutie，一种具有对象级记忆读取功能的视频对象分割（VOS）网络，该网络将存储在内存中的对象表示重新融入视频对象分割结果中。近期关于VOS的研究采用了自底向上的像素级记忆读取方法，这种方法由于匹配噪声的影响，尤其是在存在干扰物的情况下，导致在更具挑战性的数据集上性能较低。相比之下，Cutie通过适应一组小的对象查询来执行自顶向下的对象级记忆读取。通过这些查询，它利用基于查询的对象变换器（query-based object transformer, qt，因此称为Cutie）与自底向上的像素特征进行迭代交互。对象查询充当目标对象的高层次摘要，而高分辨率特征图则保留用于精确分割。结合前景背景掩码注意力机制，Cutie能够清晰地分离前景对象与背景的语义。在具有挑战性的MOSE数据集上，Cutie在运行时间相似的情况下比XMem提高了8.7 J&F指标，并且在速度快三倍的情况下比DeAOT提高了4.2 J&F指标。代码可在以下链接获取：https://hkchengrex.github.io/Cutie

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Ho Kei Cheng; Seoung Wug Oh; Brian Price; Joon-Young Lee; Alexander Schwing

摘要

我们介绍了Cutie，一种具有对象级记忆读取功能的视频对象分割（VOS）网络，该网络将存储在内存中的对象表示重新融入视频对象分割结果中。近期关于VOS的研究采用了自底向上的像素级记忆读取方法，这种方法由于匹配噪声的影响，尤其是在存在干扰物的情况下，导致在更具挑战性的数据集上性能较低。相比之下，Cutie通过适应一组小的对象查询来执行自顶向下的对象级记忆读取。通过这些查询，它利用基于查询的对象变换器（query-based object transformer, qt，因此称为Cutie）与自底向上的像素特征进行迭代交互。对象查询充当目标对象的高层次摘要，而高分辨率特征图则保留用于精确分割。结合前景背景掩码注意力机制，Cutie能够清晰地分离前景对象与背景的语义。在具有挑战性的MOSE数据集上，Cutie在运行时间相似的情况下比XMem提高了8.7 J&F指标，并且在速度快三倍的情况下比DeAOT提高了4.2 J&F指标。代码可在以下链接获取：https://hkchengrex.github.io/Cutie

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供