8 个月前

多模态表征

计算机视觉

Bruno Korbar Du Tran Lorenzo Torresani

摘要

视频中的视觉元素和听觉元素之间存在天然的相关性。在这项工作中，我们利用这种联系，通过自监督时间同步学习来构建适用于音频和视频分析的通用且有效的模型。我们证明了校准的课程学习方案、精心选择的负样本以及对比损失函数的使用是获得强大的多感官表示的关键因素，这些模型经过优化以识别音视频对的时间同步。在无需进一步微调的情况下，所得到的音频特征在已建立的音频分类基准（如DCASE2014和ESC-50）上表现出优于或可比于现有最先进方法的性能。同时，我们的视觉子网络为提高基于视频的动作识别模型的准确性提供了非常有效的初始化：与从零开始学习相比，我们的自监督预训练在UCF101数据集上的动作识别准确率提高了显著的19.9%，在HMDB51数据集上则提升了17.7%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Bruno Korbar Du Tran Lorenzo Torresani

摘要

视频中的视觉元素和听觉元素之间存在天然的相关性。在这项工作中，我们利用这种联系，通过自监督时间同步学习来构建适用于音频和视频分析的通用且有效的模型。我们证明了校准的课程学习方案、精心选择的负样本以及对比损失函数的使用是获得强大的多感官表示的关键因素，这些模型经过优化以识别音视频对的时间同步。在无需进一步微调的情况下，所得到的音频特征在已建立的音频分类基准（如DCASE2014和ESC-50）上表现出优于或可比于现有最先进方法的性能。同时，我们的视觉子网络为提高基于视频的动作识别模型的准确性提供了非常有效的初始化：与从零开始学习相比，我们的自监督预训练在UCF101数据集上的动作识别准确率提高了显著的19.9%，在HMDB51数据集上则提升了17.7%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供