3 个月前

基于调控Transformer与时空融合策略的音视频语音识别用于驾驶员辅助系统

基于调控Transformer与时空融合策略的音视频语音识别用于驾驶员辅助系统

摘要

本文提出了一种面向驾驶员辅助系统中视听语音识别(Audio-Visual Speech Recognition, AVSR)的研究方法。此类系统为保障驾驶安全,需在行车过程中持续与驾驶员进行语音控制交互。为此,本文设计了一种专用于鲁棒性AVSR的新型视听语音指令识别Transformer模型——AVCRFormer。该模型包含三项核心创新:(i)基于音视频特征矩阵时空融合的多模态融合策略,有效保留了两种模态的上下文信息并实现其同步;(ii)基于迭代模型精炼模块的受控Transformer结构,配备多个编码器,能够通过融合声学与视觉信息对语音识别精度的协同影响,弥合二者之间的数据鸿沟;(iii)基于多解码器的分类器集成策略,实现多预测输出。相比传统的单预测策略,所提出的多预测机制在多样化的音视频场景下展现出更优的性能表现,充分体现了模型的适应性与泛化能力。实验结果表明,该Transformer模型在RUSAVIC和LRW数据集上的语音指令识别准确率分别达到98.87%和98.81%,创下当前最优水平。本研究对推动人机交互技术的发展具有重要意义。AVCRFormer不仅在AVSR任务中表现出色,其能力更可拓展至更广泛的音视频处理与人工智能交叉领域,具有重要的理论价值与应用前景。

基准测试

基准方法指标
audio-visual-speech-recognition-on-lrwAVCRFormer
Top-1 Accuracy: 98.81
lipreading-on-lip-reading-in-the-wildAVCRFormer
Top-1 Accuracy: 89.57

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于调控Transformer与时空融合策略的音视频语音识别用于驾驶员辅助系统 | 论文 | HyperAI超神经