8 个月前

计算机视觉

Martine Toering; Ioannis Gatopoulos; Maarten Stol; Vincent Tao Hu

摘要

实例级对比学习技术依赖于数据增强和对比损失函数，在视觉表示学习领域取得了显著成功。然而，这些技术并不适合利用视频中的丰富动态结构，因为操作是在许多增强实例上进行的。在本文中，我们提出了一种新颖的方法——“视频跨流原型对比”（Video Cross-Stream Prototypical Contrasting），该方法从RGB视图和光流视图中预测一致的原型分配，操作对象为样本集。具体而言，我们交替优化过程；在优化其中一个流时，所有视图都被映射到一组流原型向量。每个分配都是通过除匹配预测视图外的所有视图进行预测的，从而将表示推向其分配的原型。因此，该方法能够在推理过程中无需显式计算光流的情况下，学习到包含运动信息的更高效的视频嵌入。我们在最近邻视频检索和动作识别任务上获得了最先进的结果，在使用S3D骨干网络的情况下，在UCF101数据集上的Top-1准确率比之前最佳方法提高了3.2%（达到90.5%），而在使用R(2+1)D骨干网络的情况下，在UCF101数据集上的准确率提高了7.2%，在HMDB51数据集上的准确率提高了15.1%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Martine Toering; Ioannis Gatopoulos; Maarten Stol; Vincent Tao Hu

摘要

实例级对比学习技术依赖于数据增强和对比损失函数，在视觉表示学习领域取得了显著成功。然而，这些技术并不适合利用视频中的丰富动态结构，因为操作是在许多增强实例上进行的。在本文中，我们提出了一种新颖的方法——“视频跨流原型对比”（Video Cross-Stream Prototypical Contrasting），该方法从RGB视图和光流视图中预测一致的原型分配，操作对象为样本集。具体而言，我们交替优化过程；在优化其中一个流时，所有视图都被映射到一组流原型向量。每个分配都是通过除匹配预测视图外的所有视图进行预测的，从而将表示推向其分配的原型。因此，该方法能够在推理过程中无需显式计算光流的情况下，学习到包含运动信息的更高效的视频嵌入。我们在最近邻视频检索和动作识别任务上获得了最先进的结果，在使用S3D骨干网络的情况下，在UCF101数据集上的Top-1准确率比之前最佳方法提高了3.2%（达到90.5%），而在使用R(2+1)D骨干网络的情况下，在UCF101数据集上的准确率提高了7.2%，在HMDB51数据集上的准确率提高了15.1%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

基于跨流原型对比的自监督视频表征学习 | 论文 | HyperAI超神经