3 个月前

XAlign:面向低资源语言的跨语言事实到文本对齐与生成

XAlign:面向低资源语言的跨语言事实到文本对齐与生成

摘要

多个关键应用场景(例如,根据英文信息框生成维基百科文本)需要在低资源(Low-Resource, LR)语言中实现从英文事实三元组自动生成描述性文本。以往的研究主要集中在英文事实到文本(Fact-to-Text, F2T)的生成任务上。据我们所知,此前尚无针对低资源语言的跨语言对齐或生成的系统性尝试。构建一个高效的跨语言事实到文本(Cross-lingual Fact-to-Text, XF2T)系统,关键在于实现英文结构化事实与低资源语言句子之间的有效对齐。为此,我们提出了两种无监督的跨语言对齐方法。我们构建了XALIGN数据集,这是一个包含8种语言、共计45万对样本的XF2T数据集,其中5402对样本经过人工标注。此外,我们基于XALIGN数据集训练了多个强大的基准XF2T生成模型。

代码仓库

tushar117/xalign
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
data-to-text-generation-on-xalignmT5
BLEU4: 25
data-to-text-generation-on-xalignVanilla Transformer
BLEU4: 19.9
data-to-text-generation-on-xalignGraph Attention Network Encoder +Transformer Decoder
BLEU4: 18.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
XAlign:面向低资源语言的跨语言事实到文本对齐与生成 | 论文 | HyperAI超神经