
摘要
基于记忆的视频对象分割方法通过构建记忆库,在长时序-空间跨度上对多个对象进行建模,取得了显著的性能表现。然而,这类方法在应对错误匹配方面仍存在困难,容易丢失关键信息,导致不同对象之间的混淆。针对这一问题,本文提出一种有效方法,通过联合优化匹配与解码阶段,缓解错误匹配问题。在记忆匹配阶段,我们提出一种代价感知机制,能够抑制短期记忆中的微小误差;同时引入分流式跨尺度匹配策略,用于长期记忆,从而为不同尺度的对象建立更广泛的匹配空间。在读出解码阶段,我们设计了一种补偿机制,旨在恢复匹配阶段中可能丢失的关键信息。所提方法在多个主流基准测试中均取得了优异性能:在DAVIS 2016和2017验证集上分别达到92.4%和88.1%的分割精度,在DAVIS 2017测试集上达到83.9%;在YouTubeVOS 2018和2019验证集上分别取得84.8%和84.6%的准确率。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-video-object-segmentation-on-1 | JIMD-R50 | F-measure (Mean): 87.4 Ju0026F: 83.9 Jaccard (Mean): 80.3 |
| visual-object-tracking-on-davis-2017 | JIMD | F-measure (Mean): 91.0 Ju0026F: 88.1 Jaccard (Mean): 85.2 |