3 个月前

基于连续动力学模型的Transformer位置编码学习

Xuanqing Liu Hsiang-Fu Yu Inderjit Dhillon Cho-Jui Hsieh

摘要

我们提出了一种新的位置信息编码方法，用于非循环模型（如Transformer模型）。与RNN和LSTM等具有顺序输入诱导偏置的模型不同，非循环模型对位置信息的敏感性较低。其根本原因在于，输入单元之间的位置信息并未被内在编码，即模型具有置换等价性（permutation equivalence）。这一特性也解释了为何现有模型均在输入端配备正弦编码（sinusoidal encoding）或位置嵌入（position embedding）层。然而，这一解决方案存在明显局限：正弦编码是人工设计的，缺乏可学习参数，灵活性不足；而位置嵌入则限制了输入序列的最大长度。因此，设计一种包含可学习参数的位置编码层，使其能够适应不同数据集和模型架构，具有重要意义。同时，我们也希望编码方式具备良好的外推能力，能够适应不同长度的输入序列。在本文提出的解决方案中，我们借鉴了近期提出的神经微分方程（Neural ODE）方法，该方法可被视为ResNet的一种连续、通用的变体，具备建模多种动力系统的能力。我们利用此类动力系统来建模编码结果随位置索引的演化过程，从而有效克服了现有方法在灵活性与序列长度外推方面的局限。我们在多种神经机器翻译与语言理解任务上对所提出的新型位置编码层进行了评估，实验结果表明，其在各项任务中均显著优于现有基线模型，展现出一致且稳定的性能提升。

代码仓库

xuanqing94/FLOATER

pytorch

基准测试

基准	方法	指标
linguistic-acceptability-on-cola	FLOATER-large	Accuracy: 69%
machine-translation-on-wmt2014-english-french	FLOATER-large	BLEU score: 42.7 Hardware Burden: Operations per network pass:
machine-translation-on-wmt2014-english-german	FLOATER-large	BLEU score: 29.2 Hardware Burden: Operations per network pass:
semantic-textual-similarity-on-mrpc	FLOATER-large	Accuracy: 91.4%
sentiment-analysis-on-sst-2-binary	FLOATER-large	Accuracy: 96.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供