HyperAIHyperAI

Command Palette

Search for a command to run...

LongT5:面向长序列的高效文本到文本Transformer

Mandy Guo Joshua Ainslie David Uthus Santiago Ontanon Jianmo Ni Yun-Hsuan Sung Yinfei Yang

摘要

近期研究表明,无论是增加输入长度,还是扩大模型规模,均能提升基于Transformer的神经网络模型的性能。本文提出一种新模型——LongT5,旨在同时探索输入长度与模型规模双重扩展的影响。具体而言,我们将长输入Transformer(ETC)中的注意力机制思想融入可扩展的T5架构,并借鉴摘要预训练方法(PEGASUS)的预训练策略。由此提出一种新型注意力机制,称为瞬态全局注意力(Transient Global, TGlobal),该机制模拟ETC的局部/全局注意力机制,但无需引入额外的辅助输入。实验结果表明,LongT5在多个摘要任务上取得了当前最优性能,并在问答任务上超越了原始T5模型的表现。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LongT5:面向长序列的高效文本到文本Transformer | 论文 | HyperAI超神经