
摘要
多个关键应用场景(例如,根据英文信息框生成维基百科文本)需要在低资源(Low-Resource, LR)语言中实现从英文事实三元组自动生成描述性文本。以往的研究主要集中在英文事实到文本(Fact-to-Text, F2T)的生成任务上。据我们所知,此前尚无针对低资源语言的跨语言对齐或生成的系统性尝试。构建一个高效的跨语言事实到文本(Cross-lingual Fact-to-Text, XF2T)系统,关键在于实现英文结构化事实与低资源语言句子之间的有效对齐。为此,我们提出了两种无监督的跨语言对齐方法。我们构建了XALIGN数据集,这是一个包含8种语言、共计45万对样本的XF2T数据集,其中5402对样本经过人工标注。此外,我们基于XALIGN数据集训练了多个强大的基准XF2T生成模型。
代码仓库
tushar117/xalign
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| data-to-text-generation-on-xalign | mT5 | BLEU4: 25 |
| data-to-text-generation-on-xalign | Vanilla Transformer | BLEU4: 19.9 |
| data-to-text-generation-on-xalign | Graph Attention Network Encoder +Transformer Decoder | BLEU4: 18.3 |