6 个月前

自然语言处理

Mihir Kale Scott Roy

摘要

尽管已有大量研究致力于利用深度学习方法从结构化数据生成文本，但几乎全部工作都集中于英语语言。本文探讨了基于机器翻译的预训练在非英语语言数据到文本生成任务中的有效性。由于结构化数据通常以英语表达，将数据生成为其他语言涉及翻译、音译和直接复制等元素，而这些元素已内置于神经机器翻译系统之中。此外，由于数据到文本的语料库通常规模较小，因此该任务可显著受益于预训练。基于在捷克语（一种形态结构复杂的语言）上的实验，我们发现，通过预训练，能够以显著提升的性能训练端到端模型，这一结论得到了自动评估指标和人工评估的一致支持。此外，我们还证明了该方法具备多项理想特性，包括在低数据场景下的性能提升以及对未见槽位值（slot values）的鲁棒性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

Mihir Kale Scott Roy

摘要

尽管已有大量研究致力于利用深度学习方法从结构化数据生成文本，但几乎全部工作都集中于英语语言。本文探讨了基于机器翻译的预训练在非英语语言数据到文本生成任务中的有效性。由于结构化数据通常以英语表达，将数据生成为其他语言涉及翻译、音译和直接复制等元素，而这些元素已内置于神经机器翻译系统之中。此外，由于数据到文本的语料库通常规模较小，因此该任务可显著受益于预训练。基于在捷克语（一种形态结构复杂的语言）上的实验，我们发现，通过预训练，能够以显著提升的性能训练端到端模型，这一结论得到了自动评估指标和人工评估的一致支持。此外，我们还证明了该方法具备多项理想特性，包括在低数据场景下的性能提升以及对未见槽位值（slot values）的鲁棒性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供