3 个月前

内在维度性解释了语言模型微调的有效性

内在维度性解释了语言模型微调的有效性

摘要

尽管预训练语言模型可以通过微调在众多自然语言理解任务中达到顶尖性能,但这一过程的内在机制尚未被充分理解,尤其是在数据量极少的情况下。为何我们能够使用相对简单的梯度下降算法(例如无需强正则化)来微调参数量达数亿的模型,仅基于数百或数千个标注样本?在本文中,我们提出,通过内在维度(intrinsic dimension)的视角来分析微调过程,能够为我们提供实证与理论上的直观解释,以阐明这一令人瞩目的现象。 我们通过实验证明,常见的预训练模型具有极低的内在维度——换言之,存在一种低维参数重参数化方式,其在微调中的表现与完整参数空间相当。例如,仅通过随机投影将200个可训练参数映射回全参数空间,即可使RoBERTa模型在MRPC任务上达到全参数微调性能的90%。 此外,我们实证发现,预训练过程本质上会隐式地最小化模型的内在维度;更令人意外的是,在经过相同数量的预训练更新后,模型规模越大,其内在维度反而越低,这在一定程度上解释了大模型为何表现出如此卓越的性能。 最后,我们将内在维度与低维任务表征、基于压缩的泛化界相联系,推导出一类基于内在维度的泛化界,其泛化性能的上界不再依赖于模型的完整参数量,从而为理解大规模模型的泛化能力提供了新的理论框架。

代码仓库

anonymousxzy/compacter
pytorch
GitHub 中提及
rabeehk/compacter
官方
pytorch

基准测试

基准方法指标
paraphrase-identification-on-quora-questionBERT-Base
Direct Intrinsic Dimension: 9295
Structure Aware Intrinsic Dimension: 8030
semantic-textual-similarity-on-mrpcBERT-Base-
semantic-textual-similarity-on-mrpcBERT-Large-

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
内在维度性解释了语言模型微调的有效性 | 论文 | HyperAI超神经