3 个月前

自监督视频中心化Transformer用于视频人脸识别聚类

自监督视频中心化Transformer用于视频人脸识别聚类

摘要

本文提出了一种基于视频中心化Transformer的新型视频人脸聚类方法。以往的研究通常采用对比学习来学习帧级特征表示,并通过平均池化在时间维度上聚合特征。然而,这种方法难以充分捕捉视频中复杂的动态变化。此外,尽管基于视频的对比学习近年来取得了显著进展,但鲜有研究致力于学习一种自监督、有利于视频人脸聚类任务的聚类友好型特征表示。为克服上述局限性,本文提出一种直接学习视频级表示的Transformer模型,能够更好地反映视频中人脸随时间变化的动态特性;同时,我们设计了一种视频中心化的自监督学习框架,用于训练该Transformer模型。此外,本文首次探索了第一人称视角视频中的人脸聚类问题,这一领域虽迅速兴起,但在现有相关研究中尚未得到系统关注。为此,我们构建并发布了首个大规模第一人称视角视频人脸聚类数据集——EasyCom-Clustering。我们在广泛使用的Big Bang Theory(BBT)数据集以及新发布的EasyCom-Clustering数据集上对所提方法进行了评估。实验结果表明,本文提出的视频中心化Transformer在两个基准测试中均超越了所有先前的最先进方法,展现出对人脸视频的自注意力理解能力。

基准测试

基准方法指标
face-clustering-on-easycomVC TRSF.
NMI: 87.44

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
自监督视频中心化Transformer用于视频人脸识别聚类 | 论文 | HyperAI超神经