6 个月前

摘要

在临床领域，自动语音识别（ASR）系统面临诸多挑战，尤其是需要准确识别专业医学术语，并满足极为严格的精度要求。为此，我们提出了United-MedASR——一种新型架构，通过融合合成数据生成、高精度ASR微调以及先进的语义增强技术，有效应对上述难题。United-MedASR基于权威医学数据库（如ICD-10，国际疾病分类第十版；MIMS，每月医学专科学术索引；以及FDA数据库）生成合成数据，构建出专用于医疗领域的增强型词汇表，从而对Whisper ASR模型进行针对性微调，显著提升其在临床场景下的适用性。为优化处理速度，系统引入Faster Whisper，实现高效、低延迟的语音识别性能。此外，我们设计了一种基于BART的定制化语义增强模块，有效处理复杂的医学术语表达，进一步提升识别准确率。该分层式架构在多个基准测试中取得突破性成果：在LibriSpeech test-clean数据集上实现0.985%的词错误率（WER），在Europarl-ASR EN Guest-test上达到0.26%的WER，并在Tedlium（0.29% WER）和FLEURS（0.336% WER）数据集上展现出稳健的性能表现。更重要的是，该架构具备良好的可迁移性，可适配不同领域，为构建高性能、领域专用的ASR系统提供了一种通用且灵活的解决方案。

源 PDF