4 个月前

自适应稀疏变换器

自适应稀疏变换器

摘要

注意力机制在自然语言处理(NLP)中已变得无处不在。近年来,尤其是Transformer架构,通过多层、多头注意力学习到了强大的上下文感知词表示。多个注意力头可以学习不同类型的词关系。然而,使用标准的softmax注意力时,所有注意力头都是密集的,会为所有上下文词分配非零权重。在这项工作中,我们引入了自适应稀疏Transformer,在这种模型中,注意力头具有灵活且依赖于上下文的稀疏模式。这一稀疏性是通过将softmax替换为$\alpha$-entmax实现的:$\alpha$-entmax是softmax的一个可微分泛化版本,允许低得分词获得精确的零权重。此外,我们推导出一种自动学习$\alpha$参数的方法——该参数控制$\alpha$-entmax的形状和稀疏度——从而使注意力头能够在集中或分散的行为之间进行选择。与使用softmax的Transformer相比,我们的自适应稀疏Transformer在机器翻译数据集上提高了可解释性和头部多样性。对我们的方法进行定量和定性分析的结果表明,不同层中的头部学会了不同的稀疏偏好,并且其注意力分布比softmax Transformer更为多样化。此外,在不牺牲准确性的情况下,注意力头中的稀疏性有助于揭示不同的头部专业化特性。

代码仓库

prajjwal1/adaptive_transformer
pytorch
GitHub 中提及
prajjwal1/fluence
pytorch
GitHub 中提及
deep-spin/entmax
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
machine-translation-on-iwslt2017-germanAdaptively Sparse Transformer (alpha-entmax)
BLEU score: 29.9
machine-translation-on-iwslt2017-germanAdaptively Sparse Transformer (1.5-entmax)
BLEU score: 29.83
machine-translation-on-wmt2014-english-germanAdaptively Sparse Transformer (alpha-entmax)
BLEU score: 26.93
machine-translation-on-wmt2014-english-germanAdaptively Sparse Transformer (1.5-entmax)
BLEU score: 25.89
machine-translation-on-wmt2016-romanianAdaptively Sparse Transformer (1.5-entmax)
BLEU score: 33.1
machine-translation-on-wmt2016-romanianAdaptively Sparse Transformer (alpha-entmax)
BLEU score: 32.89

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
自适应稀疏变换器 | 论文 | HyperAI超神经