6 个月前

音频和语音处理

多任务学习

Felix Wu Kwangyoun Kim Shinji Watanabe Kyu Han Ryan McDonald Kilian Q. Weinberger Yoav Artzi

摘要

我们提出了 Wav2Seq，这是首个针对语音数据的编码器-解码器模型中两个部分进行自监督预训练的方法。我们引入了一种伪语言，作为紧凑的离散表示，并构建了一个自监督的伪语音识别任务——将音频输入转换为伪子词序列。该方法可独立使用，也可作为低成本的第二阶段预训练策略。我们在自动语音识别（ASR）、语音命名实体识别以及语音到文本翻译任务上进行了实验。在端到端语音命名实体识别任务上，我们取得了新的最先进性能；在20个语言对的语音到文本翻译任务中，也展现出持续的性能提升，即便在对比方法使用额外文本数据进行训练的情况下依然如此。此外，在自动语音识别任务中，我们的方法使编码器-解码器模型能够对网络的所有部分均实现预训练，其性能可与近期高度优化的方法相媲美。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

多任务学习

Felix Wu Kwangyoun Kim Shinji Watanabe Kyu Han Ryan McDonald Kilian Q. Weinberger Yoav Artzi

摘要

我们提出了 Wav2Seq，这是首个针对语音数据的编码器-解码器模型中两个部分进行自监督预训练的方法。我们引入了一种伪语言，作为紧凑的离散表示，并构建了一个自监督的伪语音识别任务——将音频输入转换为伪子词序列。该方法可独立使用，也可作为低成本的第二阶段预训练策略。我们在自动语音识别（ASR）、语音命名实体识别以及语音到文本翻译任务上进行了实验。在端到端语音命名实体识别任务上，我们取得了新的最先进性能；在20个语言对的语音到文本翻译任务中，也展现出持续的性能提升，即便在对比方法使用额外文本数据进行训练的情况下依然如此。此外，在自动语音识别任务中，我们的方法使编码器-解码器模型能够对网络的所有部分均实现预训练，其性能可与近期高度优化的方法相媲美。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供