3 个月前

DoRA:权重分解低秩适配

DoRA:权重分解低秩适配

摘要

在广泛使用的参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)方法中,LoRA及其变体因其避免引入额外推理开销而受到广泛关注。然而,这些方法与全量微调(Full Fine-Tuning, FT)之间仍普遍存在性能差距。本文首次提出一种新颖的权重分解分析,用以探究FT与LoRA之间的本质差异。基于该分析结果,我们提出了一种新的方法——权重分解低秩适配(Weight-Decomposed Low-Rank Adaptation, DoRA)。DoRA将预训练权重分解为两个组成部分:幅值(magnitude)与方向(direction),并在微调过程中分别处理。具体而言,采用LoRA对方向分量进行更新,从而在显著减少可训练参数数量的同时,有效提升模型的学习能力。通过引入DoRA,我们在不增加任何推理开销的前提下,显著增强了LoRA的学习能力与训练稳定性。在多个下游任务上,包括常识推理、视觉指令微调以及图像/视频-文本理解,DoRA在LLaMA、LLaVA和VL-BART等模型上的微调表现均持续优于LoRA。相关代码已开源,地址为:https://github.com/NVlabs/DoRA。

代码仓库

NVlabs/DoRA
官方
pytorch
GitHub 中提及
catid/dora
pytorch
GitHub 中提及
nbasyl/DoRA
官方
GitHub 中提及
seanzhang-zhichen/llama3-chinese
pytorch
GitHub 中提及

基准测试

基准方法指标
parameter-efficient-fine-tuning-on-boolqLLaMA2-7b
Accuracy (% ): 81.93
parameter-efficient-fine-tuning-on-hellaswagLLaMA2-7b
Accuracy (% ): 76.27
parameter-efficient-fine-tuning-on-winograndeLLaMA2-7b
Accuracy (% ): 70.09

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DoRA:权重分解低秩适配 | 论文 | HyperAI超神经