4 个月前

学习何时集中或分散注意力:神经机器翻译中的自适应注意力温度

学习何时集中或分散注意力:神经机器翻译中的自适应注意力温度

摘要

大多数神经机器翻译(NMT)模型基于带有编码器-解码器框架的序列到序列(Seq2Seq)模型,并配备了注意力机制。然而,传统的注意力机制在每个时间步的解码过程中都使用相同的矩阵,对不同类型的词语(如内容词和功能词)的注意力强度没有进行区分,这存在一定的问题。因此,我们提出了一种新的模型,引入了称为自适应温度控制(Self-Adaptive Control of Temperature, SACT)的机制,通过注意力温度来调节注意力的软硬度。实验结果表明,在中英翻译和英越翻译任务中,我们的模型优于基线模型。分析和案例研究进一步显示,我们的模型能够关注源端上下文中最相关的元素,并生成高质量的翻译。

代码仓库

基准测试

基准方法指标
machine-translation-on-iwslt2015-english-1Self-Adaptive Control of Temperature
BLEU: 29.12

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习何时集中或分散注意力:神经机器翻译中的自适应注意力温度 | 论文 | HyperAI超神经