4 个月前

MVT:多视图视觉变换器用于三维物体识别

MVT:多视图视觉变换器用于三维物体识别

摘要

受卷积神经网络(CNN)在图像识别领域取得的巨大成功的启发,基于视图的方法将CNN应用于3D对象理解中的投影视图建模,并取得了优异的性能。然而,多视图CNN模型无法对来自不同视图的补丁之间的通信进行建模,限制了其在3D对象识别中的有效性。鉴于视觉Transformer在图像识别方面最近取得的成功,我们提出了一种用于3D对象识别的多视图视觉Transformer(MVT)。由于Transformer块中的每个补丁特征都具有全局感受野,因此它能够自然地实现不同视图之间补丁的通信。同时,与CNN相比,它引入了较少的归纳偏置。为了兼顾有效性和效率,我们为MVT开发了一种全局-局部结构。我们在两个公开基准数据集ModelNet40和ModelNet10上的实验表明,我们的MVT具有竞争力的性能。

代码仓库

shanshuo/R2-MLP
pytorch
GitHub 中提及
shanshuo/MVT
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-object-recognition-on-modelnet40MVT-small
Accuracy: 97.5%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MVT:多视图视觉变换器用于三维物体识别 | 论文 | HyperAI超神经