6 个月前

摘要

本文提出了一种面向驾驶员辅助系统中视听语音识别（Audio-Visual Speech Recognition, AVSR）的研究方法。此类系统为保障驾驶安全，需在行车过程中持续与驾驶员进行语音控制交互。为此，本文设计了一种专用于鲁棒性AVSR的新型视听语音指令识别Transformer模型——AVCRFormer。该模型包含三项核心创新：（i）基于音视频特征矩阵时空融合的多模态融合策略，有效保留了两种模态的上下文信息并实现其同步；（ii）基于迭代模型精炼模块的受控Transformer结构，配备多个编码器，能够通过融合声学与视觉信息对语音识别精度的协同影响，弥合二者之间的数据鸿沟；（iii）基于多解码器的分类器集成策略，实现多预测输出。相比传统的单预测策略，所提出的多预测机制在多样化的音视频场景下展现出更优的性能表现，充分体现了模型的适应性与泛化能力。实验结果表明，该Transformer模型在RUSAVIC和LRW数据集上的语音指令识别准确率分别达到98.87%和98.81%，创下当前最优水平。本研究对推动人机交互技术的发展具有重要意义。AVCRFormer不仅在AVSR任务中表现出色，其能力更可拓展至更广泛的音视频处理与人工智能交叉领域，具有重要的理论价值与应用前景。

源 PDF 查看代码