3 个月前

ETC:在Transformer中编码长且结构化输入

ETC:在Transformer中编码长且结构化输入

摘要

Transformer模型在众多自然语言处理(NLP)任务中显著推动了技术前沿的发展。本文提出一种新型Transformer架构——扩展Transformer构建(Extended Transformer Construction, ETC),旨在解决标准Transformer架构面临的两个关键挑战:输入序列长度的扩展性以及结构化输入的编码能力。为实现对更长输入序列的注意力机制扩展,我们引入了一种新颖的全局-局部注意力机制,该机制在全局标记(global tokens)与常规输入标记之间建立关联。此外,我们证明将全局-局部注意力机制与相对位置编码相结合,并采用对比预测编码(Contrastive Predictive Coding, CPC)作为预训练目标,可使ETC模型有效编码结构化输入。在四个需要处理长序列和/或结构化输入的自然语言数据集上,我们的方法均取得了当前最优的性能表现。

基准测试

基准方法指标
question-answering-on-conditionalqaETC-Pipeline
Conditional (answers): 39.4 / 41.8
Conditional (w/ conditions): 2.5 / 3.4
Overall (answers): 35.6 / 39.8
Overall (w/ conditions): 26.9 / 30.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ETC:在Transformer中编码长且结构化输入 | 论文 | HyperAI超神经