8 个月前

计算机视觉

计算机视觉

Rui Qian∗1,2,3 Tianjian Meng∗1 Boqing Gong1 Ming-Hsuan Yang1 Huisheng Wang1 Serge Belongie1,2,3 Yin Cui1

摘要

我们提出了一种自监督对比视频表征学习（Contrastive Video Representation Learning, CVRL）方法，用于从未标记的视频中学习时空视觉表征。我们的表征通过对比损失函数进行学习，其中来自同一段短视频的两个增强片段在嵌入空间中被拉近，而来自不同视频的片段则被推开。我们研究了哪些数据增强方法对视频自监督学习是有效的，并发现空间信息和时间信息都至关重要。因此，我们精心设计了涉及空间和时间线索的数据增强方法。具体而言，我们提出了一种时间一致的空间增强方法，在对视频中的每一帧施加强烈的空间增强的同时保持帧间的时间一致性。此外，我们还提出了一种基于采样的时间增强方法，以避免对时间上相距较远的片段过度强制不变性。在Kinetics-600数据集上，使用CVRL学到的表征训练的线性分类器在3D-ResNet-50（R3D-50）主干网络下达到了70.4%的Top-1准确率，比使用相同膨胀R3D-50网络的ImageNet监督预训练高出15.7%，比SimCLR无监督预训练高出18.8%。使用更大的R3D-152（滤波器数量翻倍）主干网络时，CVRL的性能可进一步提升至72.9%，显著缩小了无监督与监督视频表征学习之间的差距。我们的代码和模型将在https://github.com/tensorflow/models/tree/master/official/ 上提供。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Rui Qian∗1,2,3 Tianjian Meng∗1 Boqing Gong1 Ming-Hsuan Yang1 Huisheng Wang1 Serge Belongie1,2,3 Yin Cui1

摘要

我们提出了一种自监督对比视频表征学习（Contrastive Video Representation Learning, CVRL）方法，用于从未标记的视频中学习时空视觉表征。我们的表征通过对比损失函数进行学习，其中来自同一段短视频的两个增强片段在嵌入空间中被拉近，而来自不同视频的片段则被推开。我们研究了哪些数据增强方法对视频自监督学习是有效的，并发现空间信息和时间信息都至关重要。因此，我们精心设计了涉及空间和时间线索的数据增强方法。具体而言，我们提出了一种时间一致的空间增强方法，在对视频中的每一帧施加强烈的空间增强的同时保持帧间的时间一致性。此外，我们还提出了一种基于采样的时间增强方法，以避免对时间上相距较远的片段过度强制不变性。在Kinetics-600数据集上，使用CVRL学到的表征训练的线性分类器在3D-ResNet-50（R3D-50）主干网络下达到了70.4%的Top-1准确率，比使用相同膨胀R3D-50网络的ImageNet监督预训练高出15.7%，比SimCLR无监督预训练高出18.8%。使用更大的R3D-152（滤波器数量翻倍）主干网络时，CVRL的性能可进一步提升至72.9%，显著缩小了无监督与监督视频表征学习之间的差距。我们的代码和模型将在https://github.com/tensorflow/models/tree/master/official/ 上提供。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供