3 个月前

一种无需训练的 LLM 长度外推方法:贪心注意力逻辑插值(GALI)

一种无需训练的 LLM 长度外推方法:贪心注意力逻辑插值(GALI)

摘要

基于Transformer的大型语言模型(LLMs)在处理超出其训练时上下文窗口长度的输入时,会因位置信息的分布外(Out-of-Distribution, O.O.D.)问题而出现注意力机制紊乱,导致性能显著下降。现有的解决方案,包括微调方法和无需训练的方法,普遍存在效率低下、冗余插值、逻辑输出异常(logit outliers)或局部位置信息丢失等挑战。为此,我们提出了一种无需训练的方法——贪婪注意力逻辑插值(Greedy Attention Logit Interpolation, GALI),该方法通过贪婪地复用预训练模型中的位置区间,并对注意力逻辑值进行插值,有效消除异常输出,从而显著提升模型在长文本任务中的长度外推能力。GALI在多种长上下文任务中均展现出稳定且优越的性能,且无需针对不同输入长度进行特定调参。进一步分析表明,LLMs对不同位置区间的理解存在不均衡性,而将插值范围限制在更窄的区间内,甚至能在短上下文任务中带来性能提升。GALI为实现更鲁棒、更具泛化能力的长文本处理迈出了重要一步。我们已将GALI的完整实现及论文中的实验代码开源,项目地址为:https://github.com/adlnlp/Gali。

代码仓库

academycityl/gali
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
long-context-understanding-on-l-evalGALI(Llama3-8b-ins-8k-to-32k)
Average Score: 42.79
long-context-understanding-on-l-evalGALI(Llama3-8b-ins-4k-to-16k)
Average Score: 59.21
long-context-understanding-on-l-evalGALI(Llama3-8b-ins-8k-to-16k)
Average Score: 42.32
long-context-understanding-on-l-evalGALI(Llama3-8b-ins-4k-to-32k)
Average Score: 59.10
long-context-understanding-on-longbenchGALI(Llama3-8b-ins-8k-to-16k)
Average Score: 45.17
long-context-understanding-on-longbenchGALI(Llama3-8b-ins-4k-to-16k)
Average Score: 46.22
long-context-understanding-on-longbenchGALI(Llama3-8b-ins-8k-to-32k)
Average Score: 45.38

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种无需训练的 LLM 长度外推方法:贪心注意力逻辑插值(GALI) | 论文 | HyperAI超神经