3 个月前

D2Conv3D:用于视频中目标分割的动态空洞卷积

D2Conv3D:用于视频中目标分割的动态空洞卷积

摘要

尽管单目视频中的目标分割与跟踪任务已受到研究界的广泛关注,但仍存在巨大的改进空间。现有研究已充分验证了空洞卷积(dilated convolution)与可变形卷积(deformable convolution)在多种图像级分割任务中的有效性。这一成果为将此类卷积的三维(时空)扩展应用于视频级分割任务带来了合理预期,即有望带来性能提升。然而,现有文献对此方面尚未进行充分探索。本文提出了一种新型卷积结构——动态空洞卷积(Dynamic Dilated Convolutions, D2Conv3D):该方法融合空洞卷积与可变形卷积的思想,并将其推广至三维(时空)域。实验结果表明,仅通过将标准卷积替换为D2Conv3D,即可显著提升多种3D卷积神经网络架构在多个视频分割相关基准测试中的性能。此外,D2Conv3D在性能上优于现有空洞卷积与可变形卷积向三维简单扩展的直接方法。最后,我们在DAVIS 2016无监督视频目标分割基准上取得了新的最先进(state-of-the-art)结果。代码已公开发布于:https://github.com/Schmiddo/d2conv3d。

基准测试

基准方法指标
unsupervised-video-object-segmentation-on-10D2Conv3D
F: 86.5
G: 86.0
J: 85.5
video-instance-segmentation-on-ovis-1D2Conv3D (ResNet-50)
AP50: 33.8
AP75: 13.7
mask AP: 15.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
D2Conv3D:用于视频中目标分割的动态空洞卷积 | 论文 | HyperAI超神经