6 个月前

多任务学习

计算机视觉

计算机视觉

Maxim Kolodiazhnyi Anna Vorontsova Anton Konushin Danila Rukhovich

摘要

三维点云的语义分割、实例分割与全景分割通常采用结构各异的任务专用模型来分别处理，导致各类分割任务之间的内在相似性及其隐含关联未能得到充分挖掘与利用。本文提出一种统一、简洁且高效的模型——OneFormer3D，能够联合解决上述三类分割任务。该模型通过一组可学习的核函数（learnable kernels）实现一致的实例与语义分割，其中每个核函数负责生成对应实例或语义类别的一张掩码。这些核函数在基于Transformer的解码器中进行训练，统一的实例与语义查询作为输入传递至解码器。该设计使得模型能够在单次端到端训练中完成优化，从而在三项分割任务上均实现顶尖性能。具体而言，我们的OneFormer3D在ScanNet测试排行榜上位列第一，并创下新的最先进水平（mAP50提升+2.1）。此外，我们在ScanNet数据集的语义分割、实例分割与全景分割任务中均取得当前最优结果（PQ提升+21），在ScanNet200数据集上实现mAP50提升+3.8，在S3DIS数据集上实现mIoU提升+0.8。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

计算机视觉

计算机视觉

Maxim Kolodiazhnyi Anna Vorontsova Anton Konushin Danila Rukhovich

摘要

三维点云的语义分割、实例分割与全景分割通常采用结构各异的任务专用模型来分别处理，导致各类分割任务之间的内在相似性及其隐含关联未能得到充分挖掘与利用。本文提出一种统一、简洁且高效的模型——OneFormer3D，能够联合解决上述三类分割任务。该模型通过一组可学习的核函数（learnable kernels）实现一致的实例与语义分割，其中每个核函数负责生成对应实例或语义类别的一张掩码。这些核函数在基于Transformer的解码器中进行训练，统一的实例与语义查询作为输入传递至解码器。该设计使得模型能够在单次端到端训练中完成优化，从而在三项分割任务上均实现顶尖性能。具体而言，我们的OneFormer3D在ScanNet测试排行榜上位列第一，并创下新的最先进水平（mAP50提升+2.1）。此外，我们在ScanNet数据集的语义分割、实例分割与全景分割任务中均取得当前最优结果（PQ提升+21），在ScanNet200数据集上实现mAP50提升+3.8，在S3DIS数据集上实现mIoU提升+0.8。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供