8 个月前

计算机视觉

多模态表征

计算机视觉

Zekun Qi†1 Runpei Dong†1 ♠ Guofan Fan1 Zheng Ge2 Xiangyu Zhang2 Kaisheng Ma3 Li Yi3

摘要

主流的3D表征学习方法建立在对比或生成建模的预训练任务之上，在各种下游任务中取得了显著的性能提升。然而，我们发现这两种范式具有不同的特性：(i) 对比模型对数据量有较高需求，容易出现表征过拟合问题；(ii) 生成模型存在数据填充问题，其数据扩展能力相比对比模型较差。这促使我们尝试结合两种范式的优点来学习3D表征，但由于两者之间的模式差异，这一目标并不容易实现。在本文中，我们提出了一种名为“重构对比”（ReCon）的方法，该方法统一了这两种范式。ReCon通过集成蒸馏技术从生成建模教师和单模态/跨模态对比教师中学习，其中生成学生指导对比学生。我们设计了一种编码器-解码器风格的ReCon模块，通过带有停止梯度的交叉注意力机制传递知识，从而避免了预训练过拟合和模式差异问题。ReCon在3D表征学习方面达到了新的最先进水平，例如在ScanObjectNN数据集上实现了91.26%的准确率。代码已发布在 https://github.com/qizekun/ReCon。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

多模态表征

计算机视觉

Zekun Qi†1 Runpei Dong†1 ♠ Guofan Fan1 Zheng Ge2 Xiangyu Zhang2 Kaisheng Ma3 Li Yi3

摘要

主流的3D表征学习方法建立在对比或生成建模的预训练任务之上，在各种下游任务中取得了显著的性能提升。然而，我们发现这两种范式具有不同的特性：(i) 对比模型对数据量有较高需求，容易出现表征过拟合问题；(ii) 生成模型存在数据填充问题，其数据扩展能力相比对比模型较差。这促使我们尝试结合两种范式的优点来学习3D表征，但由于两者之间的模式差异，这一目标并不容易实现。在本文中，我们提出了一种名为“重构对比”（ReCon）的方法，该方法统一了这两种范式。ReCon通过集成蒸馏技术从生成建模教师和单模态/跨模态对比教师中学习，其中生成学生指导对比学生。我们设计了一种编码器-解码器风格的ReCon模块，通过带有停止梯度的交叉注意力机制传递知识，从而避免了预训练过拟合和模式差异问题。ReCon在3D表征学习方面达到了新的最先进水平，例如在ScanObjectNN数据集上实现了91.26%的准确率。代码已发布在 https://github.com/qizekun/ReCon。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供