8 个月前

摘要

我们研究了仅训练用于预测互联网上大量音频转录文本的语音处理系统的性能。当扩展到68万小时的多语言和多任务监督时，所得到的模型在标准基准测试中表现出良好的泛化能力，并且在零样本迁移设置下通常能够与先前完全监督的结果相媲美，而无需任何微调。与人类相比，这些模型在准确性和鲁棒性方面接近人类水平。我们将发布模型和推理代码，以作为进一步研究稳健语音处理的基础。

源 PDF