
摘要
神经自然语言生成(Neural Natural Language Generation, NNLG)系统以其病态输出而闻名,即生成与输入规范无关的文本。本文研究了语义噪声对采用不同语义控制机制的前沿NNLG模型的影响。研究发现,使用清洗后的数据可使语义正确性提升高达97%,同时保持生成文本的流畅性。此外,我们发现最常见的错误是信息遗漏,而非幻觉(hallucination)。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| data-to-text-generation-on-cleaned-e2e-nlg-1 | TGen | BLEU (Test set): 40.73 |