3 个月前

用于动作识别的SMART帧选择

用于动作识别的SMART帧选择

摘要

动作识别具有较高的计算开销。本文针对帧选择问题展开研究,旨在提升动作识别的准确性。特别地,我们证明了在剪辑视频(trimmed videos)场景下,选择高质量的帧同样能够显著提升动作识别性能。尽管近期研究已成功将帧选择技术应用于长时、未剪辑视频(untrimmed videos),这类视频中存在大量无关内容,易于剔除,但本文聚焦于更为常见的短时、剪辑动作识别任务。我们认为,有效的帧选择不仅能够降低动作识别的计算成本,还能通过剔除难以分类的低质量帧来提升识别精度。与以往工作通常逐帧进行选择不同,本文提出一种新的联合帧选择方法,即同时考虑视频中所有帧的全局信息,从而实现更高效的帧筛选。该方法使优质帧在视频中更合理地分布,如同一组能够讲述完整故事的快照。我们称该方法为SMART(Selective Multi-frame Attention for Recognition Tasks)。我们在多种主干网络架构下,并在多个基准数据集(Kinetics、Something-Something、UCF101)上对SMART进行了验证。实验结果表明,相较于其他帧选择策略,SMART在保持或提升识别准确率的同时,将计算成本降低了4至10倍。此外,当以识别性能为主要目标时,我们的帧选择策略在多个主流基准数据集(UCF101、HMDB51、FCVID、ActivityNet)上均超越了近期最先进的模型与帧选择方法,展现出显著的性能优势。

基准测试

基准方法指标
action-recognition-in-videos-on-activitynetSMART
mAP: 84.4
action-recognition-in-videos-on-hmdb-51SMART
Average accuracy of 3 splits: 84.36
action-recognition-in-videos-on-ucf101SMART
3-fold Accuracy: 98.64

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于动作识别的SMART帧选择 | 论文 | HyperAI超神经