8 个月前

监督式微调

Hyung Won Chung† Thibault Févry† Henry Tsai Melvin Johnson Sebastian Ruder

摘要

我们重新评估了在最先进的预训练语言模型中共享输入和输出嵌入权重的标准做法。研究表明，解耦嵌入提供了更大的建模灵活性，使我们能够在多语言模型的输入嵌入中显著提高参数分配的效率。通过在Transformer层中重新分配输入嵌入参数，我们在微调阶段以相同的参数数量实现了标准自然语言理解任务上的显著性能提升。此外，我们还发现为输出嵌入分配额外容量即使在预训练后丢弃输出嵌入，也能在微调阶段持续带来模型性能的提升。我们的分析表明，更大的输出嵌入可以防止模型的最后一层过度专门化于预训练任务，并鼓励Transformer表示更加通用且更容易迁移到其他任务和语言。利用这些发现，我们能够在不增加微调阶段参数数量的情况下训练出在XTREME基准测试中表现优异的模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

监督式微调

Hyung Won Chung† Thibault Févry† Henry Tsai Melvin Johnson Sebastian Ruder

摘要

我们重新评估了在最先进的预训练语言模型中共享输入和输出嵌入权重的标准做法。研究表明，解耦嵌入提供了更大的建模灵活性，使我们能够在多语言模型的输入嵌入中显著提高参数分配的效率。通过在Transformer层中重新分配输入嵌入参数，我们在微调阶段以相同的参数数量实现了标准自然语言理解任务上的显著性能提升。此外，我们还发现为输出嵌入分配额外容量即使在预训练后丢弃输出嵌入，也能在微调阶段持续带来模型性能的提升。我们的分析表明，更大的输出嵌入可以防止模型的最后一层过度专门化于预训练任务，并鼓励Transformer表示更加通用且更容易迁移到其他任务和语言。利用这些发现，我们能够在不增加微调阶段参数数量的情况下训练出在XTREME基准测试中表现优异的模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供