
摘要
近年来,许多视频任务通过利用视觉变换器并建立空间-时间解耦来实现特征提取方面的突破。尽管多视角3D重建也面临多个图像作为输入的问题,但由于非结构化视图之间的关联完全模糊,这些成功无法立即被继承。在视频中存在的时间连贯性属性等可用先验关系,在此情况下并不存在。为了解决这一问题,我们提出了一种针对非结构化多图像(Unstructured Multiple Images, UMI)的新型变换器网络(UMIFormer)。该网络利用变换器模块进行解耦的视内编码,并设计了用于标记校正的模块,以挖掘不同视图中相似标记之间的相关性,从而实现解耦的视间编码。随后,所有从不同分支获得的标记被压缩成一个固定大小的紧凑表示形式,同时保留丰富的信息以供重建,这是通过利用标记之间的相似性来实现的。我们在ShapeNet上进行了实证研究,证实了我们的解耦学习方法适用于非结构化多图像。此外,实验结果还验证了我们的模型在很大程度上优于现有的最先进方法。代码将在https://github.com/GaryZhu1996/UMIFormer 提供。
代码仓库
garyzhu1996/umiformer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-reconstruction-on-data3dr2n2 | UMIFormer | 3DIoU: 0.68 |