Oleksii KuchaievJason LiHuyen NguyenOleksii HrinchukRyan LearyBoris GinsburgSamuel KrimanStanislav BeliaevVitaly LavrukhinJack CookPatrice CastonguayMariya PopovaJocelyn HuangJonathan M. Cohen

摘要
NeMo(Neural Modules)是一个与具体框架无关的 Python 工具包,旨在通过模块复用、抽象封装与组合方式,构建人工智能应用。NeMo 以神经模块(neural modules)为核心,这些模块是神经网络的逻辑单元,具有类型化的输入与输出。典型的模块包括数据层、编码器、解码器、语言模型、损失函数,以及激活值的组合方法等。NeMo 通过其神经类型系统(neural type system)提供语义层面的正确性检查,使开发者能够便捷地组合与复用这些构建模块。该工具包内置了可扩展的预构建模块集合,涵盖自动语音识别(ASR)与自然语言处理(NLP)任务。此外,NeMo 原生支持在最新 NVIDIA GPU 上进行分布式训练与混合精度计算。NeMo 为开源项目,代码托管于 GitHub:https://github.com/NVIDIA/NeMo
代码仓库
NVIDIA/NeMo
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-common-voice-french | ConformerCTC-L (4-gram) | Test WER: 9.16% |
| speech-recognition-on-common-voice-french | ConformerCTC-L (no-LM) | Test WER: 9.63% |
| speech-recognition-on-common-voice-german | ConformerCTC-L (no LM) | Test WER: 6.68% |
| speech-recognition-on-common-voice-german | ConformerCTC-L (4-gram) | Test WER: 6.03% |
| speech-recognition-on-common-voice-spanish | ConformerCTC-L (4-gram) | Test WER: 5.5% |
| speech-recognition-on-common-voice-spanish | ConformerCTC-L (no LM) | Test WER: 6.9% |