6 个月前

自然语言处理

Chia-Hsuan Lee Aditya Siddhant Viresh Ratnakar Melvin Johnson

摘要

本文介绍了DOCmT5，一种基于大规模平行文档进行预训练的多语言序列到序列语言模型。与以往主要依赖句子级别平行数据的方法不同，我们致力于构建一个通用的预训练模型，使其能够理解和生成长篇文档。为此，我们提出了一种简单而有效的预训练目标——文档重排序机器翻译（Document Reordering Machine Translation, DrMT），该方法将输入文档进行打乱和掩码处理后，要求模型完成翻译任务。在多种文档级生成任务上，DrMT相较于强基线模型均取得了稳定提升，具体表现为：在已见语言对的文档级机器翻译任务中，BLEU分数提升超过12点；在未见语言对的文档级机器翻译任务中，BLEU分数提升超过7点；在已见语言对的跨语言摘要任务中，ROUGE-1分数提升超过3点。我们在WMT20 De-En和IWSLT15 Zh-En文档翻译任务上均达到了当前最优（SOTA）性能。此外，我们还对文档预训练中的多个关键因素进行了深入分析，包括：（1）预训练数据质量的影响；（2）单语与跨语言预训练相结合的效果。我们计划将模型检查点公开发布，以促进相关研究的发展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

Chia-Hsuan Lee Aditya Siddhant Viresh Ratnakar Melvin Johnson

摘要

本文介绍了DOCmT5，一种基于大规模平行文档进行预训练的多语言序列到序列语言模型。与以往主要依赖句子级别平行数据的方法不同，我们致力于构建一个通用的预训练模型，使其能够理解和生成长篇文档。为此，我们提出了一种简单而有效的预训练目标——文档重排序机器翻译（Document Reordering Machine Translation, DrMT），该方法将输入文档进行打乱和掩码处理后，要求模型完成翻译任务。在多种文档级生成任务上，DrMT相较于强基线模型均取得了稳定提升，具体表现为：在已见语言对的文档级机器翻译任务中，BLEU分数提升超过12点；在未见语言对的文档级机器翻译任务中，BLEU分数提升超过7点；在已见语言对的跨语言摘要任务中，ROUGE-1分数提升超过3点。我们在WMT20 De-En和IWSLT15 Zh-En文档翻译任务上均达到了当前最优（SOTA）性能。此外，我们还对文档预训练中的多个关键因素进行了深入分析，包括：（1）预训练数据质量的影响；（2）单语与跨语言预训练相结合的效果。我们计划将模型检查点公开发布，以促进相关研究的发展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供