6 个月前

卷积神经网络

音频和语音处理

Zengwei Yao Liyong Guo Xiaoyu Yang Wei Kang Fangjun Kuang Yifan Yang Zengrui Jin Long Lin Daniel Povey

摘要

Conformer 已成为自动语音识别（ASR）领域最流行的编码器模型，其通过在 Transformer 架构中引入卷积模块，能够同时捕捉局部与全局依赖关系。在本工作中，我们提出了一种更快速、内存效率更高且性能更优的 Transformer 变体，称为 Zipformer。其主要建模改进包括：1）采用类似 U-Net 的编码器结构，中间层以更低的帧率进行处理；2）重构块结构，引入更多模块，并通过复用注意力权重以提升计算效率；3）提出一种改进的 LayerNorm 变体——BiasNorm，能够在保留部分序列长度信息的同时维持归一化效果；4）设计了新型激活函数 SwooshR 与 SwooshL，其性能优于传统的 Swish 函数。此外，我们还提出一种新型优化器——ScaledAdam，该优化器根据每个张量当前的尺度对更新量进行缩放，以保持相对变化的一致性，并显式地学习参数的尺度。相比 Adam 优化器，ScaledAdam 具有更快的收敛速度和更优的性能表现。在 LibriSpeech、Aishell-1 以及 WenetSpeech 等多个公开数据集上的大量实验表明，所提出的 Zipformer 在各项指标上均优于当前主流的先进 ASR 模型。相关代码已开源，可访问 https://github.com/k2-fsa/icefall 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

音频和语音处理

Zengwei Yao Liyong Guo Xiaoyu Yang Wei Kang Fangjun Kuang Yifan Yang Zengrui Jin Long Lin Daniel Povey

摘要

Conformer 已成为自动语音识别（ASR）领域最流行的编码器模型，其通过在 Transformer 架构中引入卷积模块，能够同时捕捉局部与全局依赖关系。在本工作中，我们提出了一种更快速、内存效率更高且性能更优的 Transformer 变体，称为 Zipformer。其主要建模改进包括：1）采用类似 U-Net 的编码器结构，中间层以更低的帧率进行处理；2）重构块结构，引入更多模块，并通过复用注意力权重以提升计算效率；3）提出一种改进的 LayerNorm 变体——BiasNorm，能够在保留部分序列长度信息的同时维持归一化效果；4）设计了新型激活函数 SwooshR 与 SwooshL，其性能优于传统的 Swish 函数。此外，我们还提出一种新型优化器——ScaledAdam，该优化器根据每个张量当前的尺度对更新量进行缩放，以保持相对变化的一致性，并显式地学习参数的尺度。相比 Adam 优化器，ScaledAdam 具有更快的收敛速度和更优的性能表现。在 LibriSpeech、Aishell-1 以及 WenetSpeech 等多个公开数据集上的大量实验表明，所提出的 Zipformer 在各项指标上均优于当前主流的先进 ASR 模型。相关代码已开源，可访问 https://github.com/k2-fsa/icefall 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供