6 个月前

摘要

研究表明，原始视频中存在显著的特征冗余，许多情况下仅需处理部分帧即可满足准确识别的需求。本文关注这一冗余特性是否能够被有效利用，以提升连续手语识别（Continuous Sign Language Recognition, CSLR）任务中的推理效率。为此，我们提出一种新型自适应模型——AdaBrowse，将该问题建模为序列决策任务，动态地从输入视频序列中选择最具信息量的子序列进行处理。具体而言，首先采用轻量级网络对输入视频进行快速扫描，提取粗粒度特征；随后，将这些特征输入策略网络，智能地筛选出需进一步处理的子序列；最后，由标准的CSLR模型对所选子序列进行推理，完成句子预测。由于仅对部分帧进行计算，整体计算开销显著降低。除了时间维度上的冗余，我们进一步探索是否可将固有的空间冗余无缝融合，以实现更高效的处理——即针对每个样本动态选择最低输入分辨率，该改进版本称为AdaBrowse+。在四个大规模CSLR数据集（PHOENIX14、PHOENIX14-T、CSL-Daily和CSL）上的大量实验结果表明，AdaBrowse与AdaBrowse+在保持与当前最先进方法相当识别精度的同时，实现了1.44倍的吞吐量提升和2.12倍的浮点运算量（FLOPs）减少。与多种常用2D卷积神经网络及自适应高效方法的对比进一步验证了AdaBrowse的有效性。相关代码已开源，地址为：\url{https://github.com/hulianyuyy/AdaBrowse}。

源 PDF