6 个月前

计算机视觉

Sixiao Zheng Jiachen Lu Hengshuang Zhao Xiatian Zhu Zekun Luo Yabiao Wang Yanwei Fu Jianfeng Feng Tao Xiang Philip H.S. Torr

摘要

近年来，主流的语义分割方法普遍采用基于编码器-解码器结构的全卷积网络（FCN）。其中，编码器逐步降低特征图的空间分辨率，同时通过更大的感受野学习更具抽象性与语义性的视觉特征。由于上下文建模在分割任务中至关重要，近期研究主要聚焦于通过空洞卷积（dilated/atrous convolutions）或引入注意力模块来扩大感受野。然而，基于编码器-解码器结构的FCN架构本身并未发生根本性变革。本文提出一种全新的视角：将语义分割建模为序列到序列的预测任务。具体而言，我们采用纯Transformer架构（即不包含卷积操作，也不进行分辨率下采样），将图像划分为多个图像块（patches），并将其编码为一个序列。由于Transformer每一层均能建模全局上下文信息，该编码器可与一个简洁的解码器相结合，构建出一种强大的分割模型，命名为SEgmentation TRansformer（SETR）。大量实验表明，SETR在ADE20K数据集上取得了50.28%的mIoU，刷新了该数据集的最新性能纪录；在Pascal Context数据集上达到55.83%的mIoU，同时在Cityscapes数据集上也取得了具有竞争力的结果。尤为值得一提的是，我们在提交论文当日即登顶极具竞争性的ADE20K测试服务器排行榜，位居第一。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Sixiao Zheng Jiachen Lu Hengshuang Zhao Xiatian Zhu Zekun Luo Yabiao Wang Yanwei Fu Jianfeng Feng Tao Xiang Philip H.S. Torr

摘要

近年来，主流的语义分割方法普遍采用基于编码器-解码器结构的全卷积网络（FCN）。其中，编码器逐步降低特征图的空间分辨率，同时通过更大的感受野学习更具抽象性与语义性的视觉特征。由于上下文建模在分割任务中至关重要，近期研究主要聚焦于通过空洞卷积（dilated/atrous convolutions）或引入注意力模块来扩大感受野。然而，基于编码器-解码器结构的FCN架构本身并未发生根本性变革。本文提出一种全新的视角：将语义分割建模为序列到序列的预测任务。具体而言，我们采用纯Transformer架构（即不包含卷积操作，也不进行分辨率下采样），将图像划分为多个图像块（patches），并将其编码为一个序列。由于Transformer每一层均能建模全局上下文信息，该编码器可与一个简洁的解码器相结合，构建出一种强大的分割模型，命名为SEgmentation TRansformer（SETR）。大量实验表明，SETR在ADE20K数据集上取得了50.28%的mIoU，刷新了该数据集的最新性能纪录；在Pascal Context数据集上达到55.83%的mIoU，同时在Cityscapes数据集上也取得了具有竞争力的结果。尤为值得一提的是，我们在提交论文当日即登顶极具竞争性的ADE20K测试服务器排行榜，位居第一。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供