8 个月前

多模态表征

计算机视觉

Pedro Morgado Nuno Vasconcelos Ishan Misra

摘要

我们提出了一种自监督学习方法，用于从视频和音频中学习视听表示。该方法利用对比学习实现视频与音频之间的跨模态判别，反之亦然。我们证明了优化跨模态判别而非单模态内判别对于从视频和音频中学习高质量的表示至关重要。基于这一简单而强大的见解，我们的方法在微调后的动作识别任务中表现出色，达到了极具竞争力的性能。此外，近期关于对比学习的研究通常将正样本和负样本定义为单独的实例，而我们通过探索跨模态一致性对此定义进行了扩展。我们通过测量多个实例在视频和音频特征空间中的相似性，将其归类为正样本。跨模态一致性创建了更好的正样本和负样本集合，这使我们能够在寻求单模态内正样本判别的同时校准视觉相似性，并在下游任务中取得显著的性能提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Pedro Morgado Nuno Vasconcelos Ishan Misra

摘要

我们提出了一种自监督学习方法，用于从视频和音频中学习视听表示。该方法利用对比学习实现视频与音频之间的跨模态判别，反之亦然。我们证明了优化跨模态判别而非单模态内判别对于从视频和音频中学习高质量的表示至关重要。基于这一简单而强大的见解，我们的方法在微调后的动作识别任务中表现出色，达到了极具竞争力的性能。此外，近期关于对比学习的研究通常将正样本和负样本定义为单独的实例，而我们通过探索跨模态一致性对此定义进行了扩展。我们通过测量多个实例在视频和音频特征空间中的相似性，将其归类为正样本。跨模态一致性创建了更好的正样本和负样本集合，这使我们能够在寻求单模态内正样本判别的同时校准视觉相似性，并在下游任务中取得显著的性能提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供