3 个月前

AdaBrowse:面向高效连续手语识别的自适应视频浏览器

AdaBrowse:面向高效连续手语识别的自适应视频浏览器

摘要

研究表明,原始视频中存在显著的特征冗余,许多情况下仅需处理部分帧即可满足准确识别的需求。本文关注这一冗余特性是否能够被有效利用,以提升连续手语识别(Continuous Sign Language Recognition, CSLR)任务中的推理效率。为此,我们提出一种新型自适应模型——AdaBrowse,将该问题建模为序列决策任务,动态地从输入视频序列中选择最具信息量的子序列进行处理。具体而言,首先采用轻量级网络对输入视频进行快速扫描,提取粗粒度特征;随后,将这些特征输入策略网络,智能地筛选出需进一步处理的子序列;最后,由标准的CSLR模型对所选子序列进行推理,完成句子预测。由于仅对部分帧进行计算,整体计算开销显著降低。除了时间维度上的冗余,我们进一步探索是否可将固有的空间冗余无缝融合,以实现更高效的处理——即针对每个样本动态选择最低输入分辨率,该改进版本称为AdaBrowse+。在四个大规模CSLR数据集(PHOENIX14、PHOENIX14-T、CSL-Daily和CSL)上的大量实验结果表明,AdaBrowse与AdaBrowse+在保持与当前最先进方法相当识别精度的同时,实现了1.44倍的吞吐量提升和2.12倍的浮点运算量(FLOPs)减少。与多种常用2D卷积神经网络及自适应高效方法的对比进一步验证了AdaBrowse的有效性。相关代码已开源,地址为:\url{https://github.com/hulianyuyy/AdaBrowse}。

代码仓库

hulianyuyy/adabrowse
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
sign-language-recognition-on-csl-dailyAdaBrowse
Word Error Rate (WER): 30.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AdaBrowse:面向高效连续手语识别的自适应视频浏览器 | 论文 | HyperAI超神经