3 个月前

基于深度引导的自适应元融合网络用于少样本视频识别

基于深度引导的自适应元融合网络用于少样本视频识别

摘要

人类仅需极少样本即可轻松识别动作,而现有的视频识别模型仍严重依赖大规模标注数据。这一现象激发了学术界对少样本视频动作识别的日益关注,其目标是在仅有极少量标注样本的情况下学习新动作。本文提出一种基于深度引导的自适应元融合网络(Adaptive Meta-Fusion Network),简称AMeFu-Net,用于少样本视频动作识别。具体而言,本文从三个方面解决少样本识别问题:首先,通过引入深度信息作为场景的载体,缓解数据极度稀缺的问题,为模型提供额外的视觉线索;其次,利用我们提出的时序异步增强机制,从多个非严格对齐的深度视频片段中采样,并将其与原始RGB片段的特征进行融合,实现在特征层面生成新的样本实例;第三,提出一种新颖的深度引导自适应实例归一化(Depth Guided Adaptive Instance Normalization, DGAdaIN)融合模块,高效地融合双流模态信息。此外,为更真实地模拟少样本识别过程,模型采用元学习方式进行训练。在多个动作识别基准数据集上的大量实验结果表明,所提方法具有显著的有效性。

代码仓库

lovelyqian/AMeFu-Net
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
few-shot-action-recognition-on-hmdb51AMeFu-Net
1:1 Accuracy: 75.5
few-shot-action-recognition-on-kinetics-100AMeFu-Net
Accuracy: 86.8
few-shot-action-recognition-on-ucf101AMeFu-Net
1:1 Accuracy: 95.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于深度引导的自适应元融合网络用于少样本视频识别 | 论文 | HyperAI超神经