3 个月前

MUSE:用于序列到序列学习的并行多尺度注意力机制

MUSE:用于序列到序列学习的并行多尺度注意力机制

摘要

在序列到序列学习中,自注意力机制已被证明具有高度有效性,并在众多任务中取得了显著性能提升。然而,自注意力机制本身也存在一定的缺陷。尽管其能够建模极长的依赖关系,但在深层网络中,注意力往往会过度集中于单个词元(token),导致局部信息利用不足,难以有效表征长序列。针对这一问题,本文探索了序列数据上的并行多尺度表征学习方法,旨在同时捕捉语言的长程与短程结构特征。为此,我们提出了并行多尺度注意力机制(Parallel MUlti-Scale attEntion,简称 MUSE)及其简化版本 MUSE-simple。MUSE-simple 体现了并行多尺度序列表征学习的核心思想:通过自注意力机制与逐点变换(pointwise transformation),在不同尺度上并行编码序列信息。MUSE 在 MUSE-simple 的基础上进一步拓展,探索将卷积操作与自注意力机制相结合,以从更丰富的尺度层次中学习序列表征。我们在机器翻译任务上进行了实验,结果表明,所提出的方法在性能上显著优于标准 Transformer 模型,尤其在处理长序列时优势更为明显。更重要的是,尽管该方法在概念上较为简洁,但其实际成功依赖于精细的设计考量,其中多尺度注意力机制必须建立在统一的语义空间之上。在标准设置下,该模型在三大主流机器翻译任务上均取得了显著性能提升,超越了此前所有已知模型。此外,由于其固有的并行特性,MUSE 具备加速推理的潜力。相关代码将公开发布于:https://github.com/lancopku/MUSE

代码仓库

lancopku/Prime
pytorch
GitHub 中提及
lancopku/MUSE
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
machine-translation-on-iwslt2014-germanMUSE(Parallel Multi-scale Attention)
BLEU score: 36.3
machine-translation-on-wmt2014-english-frenchMUSE(Paralllel Multi-scale Attention)
BLEU score: 43.5
Hardware Burden:
Operations per network pass:
machine-translation-on-wmt2014-english-germanMUSE(Parallel Multi-scale Attention)
BLEU score: 29.9
Hardware Burden:
Operations per network pass:

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MUSE:用于序列到序列学习的并行多尺度注意力机制 | 论文 | HyperAI超神经