6 个月前

多任务学习

Mike Lewis Yinhan Liu Naman Goyal Marjan Ghazvininejad Abdelrahman Mohamed Omer Levy Ves Stoyanov Luke Zettlemoyer

摘要

我们提出BART，一种用于预训练序列到序列模型的去噪自编码器。BART通过（1）使用任意的噪声函数对文本进行破坏，以及（2）学习一个模型以重建原始文本的方式进行训练。其架构采用标准的基于Transformer的神经机器翻译模型，尽管结构简单，但可被视为对BERT（得益于双向编码器）、GPT（采用从左到右的解码器）以及诸多近期预训练方法的统一与推广。我们评估了多种噪声策略，发现最佳效果来自于随机打乱原始句子顺序，并结合一种新颖的“填空式”噪声机制——即用单个掩码标记（mask token）替换文本中的连续片段。BART在微调用于文本生成任务时表现出色，同时在理解类任务中也表现良好。在GLUE和SQuAD基准上，其性能与RoBERTa相当，且在训练资源相近的情况下达到相同水平；在多种抽象型对话、问答及摘要任务中，BART取得了新的最先进成果，ROUGE得分提升最高达6分。此外，在仅使用目标语言预训练的前提下，BART在机器翻译任务中相较回译（back-translation）系统实现了1.1的BLEU分数提升。我们还报告了消融实验，通过在BART框架内复现其他预训练范式，以更准确地评估影响下游任务性能的关键因素。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

Mike Lewis Yinhan Liu Naman Goyal Marjan Ghazvininejad Abdelrahman Mohamed Omer Levy Ves Stoyanov Luke Zettlemoyer

摘要

我们提出BART，一种用于预训练序列到序列模型的去噪自编码器。BART通过（1）使用任意的噪声函数对文本进行破坏，以及（2）学习一个模型以重建原始文本的方式进行训练。其架构采用标准的基于Transformer的神经机器翻译模型，尽管结构简单，但可被视为对BERT（得益于双向编码器）、GPT（采用从左到右的解码器）以及诸多近期预训练方法的统一与推广。我们评估了多种噪声策略，发现最佳效果来自于随机打乱原始句子顺序，并结合一种新颖的“填空式”噪声机制——即用单个掩码标记（mask token）替换文本中的连续片段。BART在微调用于文本生成任务时表现出色，同时在理解类任务中也表现良好。在GLUE和SQuAD基准上，其性能与RoBERTa相当，且在训练资源相近的情况下达到相同水平；在多种抽象型对话、问答及摘要任务中，BART取得了新的最先进成果，ROUGE得分提升最高达6分。此外，在仅使用目标语言预训练的前提下，BART在机器翻译任务中相较回译（back-translation）系统实现了1.1的BLEU分数提升。我们还报告了消融实验，通过在BART框架内复现其他预训练范式，以更准确地评估影响下游任务性能的关键因素。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供