3 个月前

面向视频理解的联邦自监督学习

面向视频理解的联邦自监督学习

摘要

摄像头功能的移动设备广泛普及,导致在边缘端产生了大量未标注的视频数据。尽管已有多种自监督学习(Self-Supervised Learning, SSL)方法被提出,用于挖掘这些数据中潜在的时空表征以支持特定任务的训练,但实际应用中仍面临隐私顾虑和通信开销等挑战,限制了SSL在大规模场景下的部署。为缓解上述问题,本文提出将联邦学习(Federated Learning, FL)引入视频自监督学习任务。在本研究中,我们评估了当前最先进(State-of-the-Art, SOTA)视频SSL技术在基于Kinetics-400数据集模拟的大规模联邦学习场景下的性能表现,并识别出其在该设置中的若干局限性。随后,我们提出一种面向视频的新型联邦自监督学习框架——FedVSSL,该框架融合了多种聚合策略与部分权重更新机制。大量实验结果表明,FedVSSL具有显著的有效性:在下游检索任务中,其性能分别优于集中式SOTA方法6.66%(UCF-101数据集)和5.13%(HMDB-51数据集)。

代码仓库

adap/flower
官方
tf
yasar-rehman/fedvssl
pytorch
GitHub 中提及

基准测试

基准方法指标
action-recognition-in-videos-on-ucf-101R3D-18
Accuracy: 81.95
action-recognition-in-videos-on-ucf101R3D-18
Accuracy: 73.16

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向视频理解的联邦自监督学习 | 论文 | HyperAI超神经