3 个月前

超越通用Transformer:在自动语音识别中采用适配器的块重用Transformer

超越通用Transformer:在自动语音识别中采用适配器的块重用Transformer

摘要

基于Transformer的模型在端到端(End-to-End, E2E)自动语音识别(Automatic Speech Recognition, ASR)应用中取得了显著进展。借助这类模型,E2E ASR系统有望部署于智能终端设备上。然而,这些模型仍存在参数量庞大的缺点,限制了其在资源受限的边缘设备上的应用。为克服通用Transformer模型在边缘设备ASR应用中的这一局限,本文提出一种创新方案:通过在小型化ASR系统中复用Transformer模型中的模块结构,实现模型轻量化,从而在不牺牲识别准确率的前提下满足资源受限场景的需求。具体而言,本文设计了一种新型的模块复用策略——语音Transformer模块复用机制(Block-Reusing Strategy for Speech Transformer, BRST),以提升参数利用效率;同时提出一种适配器模块(Adapter Module, ADM),该模块仅引入少量可训练参数,即可在每个复用模块旁生成紧凑且具备良好适应性的模型结构。我们在公开的AISHELL-1语料库上对所提方法进行了实验验证,结果表明:在不使用ADM的情况下,模型仅需7.6M参数即可达到9.3%的字符错误率(Character Error Rate, CER);在引入ADM后,模型参数量增至8.3M,CER进一步降低至6.63%。此外,本文还进行了深入分析,验证了ADM在通用模块复用方法中的有效性与贡献。

基准测试

基准方法指标
speech-recognition-on-aishell-1BRA-E
Params(M): 8.5
Word Error Rate (WER): 6.63

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
超越通用Transformer:在自动语音识别中采用适配器的块重用Transformer | 论文 | HyperAI超神经