3 个月前

基于视频的人体重识别方法:空间与时间记忆网络

基于视频的人体重识别方法:空间与时间记忆网络

摘要

基于视频的人体再识别(video-based person re-identification, reID)旨在跨多个摄像头检索与查询目标人物身份相同的视频片段。由于视频中存在空间干扰项(如背景杂乱)和时间干扰项(如帧间部分遮挡),该任务相较于基于图像的人体再识别更具挑战性。我们观察到,空间干扰项通常在特定位置持续出现,而时间干扰项则呈现出多种模式,例如部分遮挡往往集中出现在视频的前几帧。这些模式为判断应重点关注哪些帧(即时间注意力)提供了重要线索。基于上述观察,我们提出一种新型的空间与时间记忆网络(Spatial and Temporal Memory Networks, STMN)。其中,空间记忆模块用于存储在多帧视频中反复出现的空间干扰特征,而时间记忆模块则用于保存针对人体视频中典型时间模式进行优化的注意力机制。通过利用空间记忆,模型可对帧级人体表征进行精炼;通过利用时间记忆,模型可将精炼后的帧级特征聚合为序列级的人体表征,从而有效应对视频中复杂的空间与时间干扰。此外,我们引入一种记忆扩散损失(memory spread loss),以防止模型仅关注记忆中的特定条目,从而提升模型的泛化能力。在标准基准数据集MARS、DukeMTMC-VideoReID和LS-VID上的实验结果表明,所提方法在人体再识别任务中具有显著有效性与优越性能。

代码仓库

cvlab-yonsei/STMN
官方
pytorch

基准测试

基准方法指标
person-re-identification-on-marsSTMN
Rank-1: 90.5
mAP: 84.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于视频的人体重识别方法:空间与时间记忆网络 | 论文 | HyperAI超神经