3 个月前

用于快速视频语义分割的时序分布网络

用于快速视频语义分割的时序分布网络

摘要

我们提出TDNet,一种用于快速且精准视频语义分割的时序分布网络。我们观察到,深度卷积神经网络(CNN)中某一高层特征层的特征,可通过组合多个浅层子网络提取的特征来近似表示。利用视频中固有的时序连续性,我们将这些子网络分布于连续的视频帧上。因此,在每个时间步,仅需执行轻量级计算,从单一子网络中提取一组子特征。随后,通过引入一种新颖的注意力传播模块,将这些子特征重新组合,以补偿帧间存在的几何形变。此外,我们还设计了一种分组知识蒸馏损失函数,进一步提升了整体特征与子特征层面的表示能力。在Cityscapes、CamVid和NYUD-v2数据集上的实验表明,本方法在显著提升运行速度与降低延迟的同时,实现了当前最优的分割精度。

代码仓库

基准测试

基准方法指标
real-time-semantic-segmentation-on-camvidTD4-PSP18
Frame (fps): 25(TitanX)
Time (ms): 40
mIoU: 72.6
real-time-semantic-segmentation-on-camvidTD2-PSP50
Frame (fps): 11(TitanX)
Time (ms): 90
mIoU: 76.0
real-time-semantic-segmentation-on-cityscapesTD4-BISE18
Frame (fps): 47.6 (Titan X)
Time (ms): 21
mIoU: 74.9%
real-time-semantic-segmentation-on-nyu-depth-1TD2-PSP50
Speed(ms/f): 35
mIoU: 43.5
real-time-semantic-segmentation-on-nyu-depth-1TD4-PSP18
Speed(ms/f): 19
mIoU: 37.4
semantic-segmentation-on-nyu-depth-v2TD2-PSP50
Mean IoU: 43.5
semantic-segmentation-on-nyu-depth-v2TD4-PSP18
Mean IoU: 37.4
semantic-segmentation-on-urbanlfTDNet (ResNet-50)
mIoU (Real): 76.48
mIoU (Syn): 74.71
video-semantic-segmentation-on-camvidTDNet-50
Mean IoU: 76.2
video-semantic-segmentation-on-cityscapes-valTDNet-50 [9]
mIoU: 79.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于快速视频语义分割的时序分布网络 | 论文 | HyperAI超神经