4 个月前

基于区域感知的视频对象分割与深度运动建模

基于区域感知的视频对象分割与深度运动建模

摘要

当前的半监督视频目标分割(VOS)方法通常利用一帧中的全部特征来预测目标掩码并更新记忆。这引入了显著的冗余计算。为了减少冗余,我们提出了一种区域感知视频目标分割(RAVOS)方法,该方法通过预测感兴趣区域(ROIs)实现高效的目标分割和记忆存储。RAVOS 包含一个快速目标运动跟踪器,用于预测下一帧中的 ROIs。为了实现高效的分割,根据 ROIs 提取目标特征,并设计了一个对象解码器以进行对象级别的分割。为了实现高效的记忆存储,我们提出了运动路径记忆机制,通过记住两帧之间目标的运动路径内的特征来过滤掉冗余上下文。除了 RAVOS 方法外,我们还提出了一种大规模数据集,命名为 OVOS,用于评估在遮挡情况下 VOS 模型的性能。在 DAVIS 和 YouTube-VOS 基准测试以及我们的新 OVOS 数据集上的评估表明,我们的方法在显著提高推理速度的同时达到了最先进的性能,例如,在 DAVIS 上以 42 帧每秒的速度实现了 86.1 的 J&F 分数,在 YouTube-VOS 上以 23 帧每秒的速度实现了 84.4 的 J&F 分数。

基准测试

基准方法指标
video-object-segmentation-on-youtube-vosRAVOS
F-Measure (Seen): 87.8
F-Measure (Unseen): 87.4
Jaccard (Seen): 83.1
Jaccard (Unseen): 79.1
Overall: 84.4
Speed (FPS): 23
visual-object-tracking-on-davis-2016RAVOS
F-measure (Mean): 92.6
Ju0026F: 91.7
Jaccard (Mean): 90.8
Speed (FPS): 58
visual-object-tracking-on-davis-2017RAVOS
F-measure (Mean): 89.3
Ju0026F: 86.1
Jaccard (Mean): 82.9
Speed (FPS): 42 (on 3090)

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于区域感知的视频对象分割与深度运动建模 | 论文 | HyperAI超神经