3 个月前

漏斗-Transformer:通过过滤序列冗余实现高效的语言处理

漏斗-Transformer:通过过滤序列冗余实现高效的语言处理

摘要

随着语言预训练的成功,开发更具效率且具有良好可扩展性的模型架构,以在较低成本下充分利用大量未标注数据,已成为迫切需求。为提升计算效率,我们注意到在保持完整长度的token级表示方面存在被严重忽视的冗余,尤其对于仅需序列整体单向量表示的任务而言。基于这一洞察,我们提出了Funnel-Transformer,该模型通过逐步压缩隐藏状态序列至更短的表示,从而显著降低计算开销。更重要的是,通过将因序列长度缩减而节省的浮点运算量(FLOPs)重新投入于构建更深或更宽的模型结构,进一步增强了模型的表达能力。此外,为满足常见预训练目标对token级预测的需求,Funnel-Transformer能够通过解码器从压缩后的隐藏序列中恢复出每个token的深层表示。实验结果表明,在同等或更少的FLOPs下,Funnel-Transformer在多种序列级预测任务中均优于标准Transformer,涵盖文本分类、语言理解及阅读理解等任务。代码与预训练模型检查点已开源,详见:https://github.com/laiguokun/Funnel-Transformer。

代码仓库

huggingface/transformers
pytorch
GitHub 中提及
laiguokun/Funnel-Transformer
官方
tf
GitHub 中提及
chfhf/funnel-paddle
paddle
GitHub 中提及

基准测试

基准方法指标
reading-comprehension-on-raceB10-10-10
Accuracy: 85.7
Accuracy (High): 84.4
Accuracy (Middle): 88.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
漏斗-Transformer:通过过滤序列冗余实现高效的语言处理 | 论文 | HyperAI超神经