4 个月前

基于时间对齐的少样本视频分类

基于时间对齐的少样本视频分类

摘要

近年来,人们对学习一种能够在仅有少量标注样本的情况下识别新类别的模型产生了浓厚的兴趣。本文提出了一种新的少样本学习框架——时间对齐模块(Temporal Alignment Module,TAM),该框架能够对以前未见过的视频进行分类。大多数先前的研究忽略了长期的时间顺序信息,而我们提出的模型通过时间对齐显式地利用了视频数据中的时间顺序信息,从而在少样本学习中实现了强大的数据效率。具体而言,TAM 通过沿其对齐路径平均每个帧的距离来计算查询视频与新类别代理之间的距离值。我们引入了连续松弛技术以使 TAM 能够端到端地学习,直接优化少样本学习目标。我们在两个具有挑战性的现实世界数据集 Kinetics 和 Something-Something-V2 上评估了 TAM,并展示了我们的模型在广泛的竞争基线方法上显著提高了少样本视频分类的性能。

基准测试

基准方法指标
action-recognition-in-videos-on-somethingTAM (5-shot)
Top-1 Accuracy: 52.3
few-shot-action-recognition-on-kinetics-100OTAM
Accuracy: 85.8
few-shot-action-recognition-on-somethingOTAM
1:1 Accuracy: 52.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于时间对齐的少样本视频分类 | 论文 | HyperAI超神经