
摘要
我们提出了TVStoryGen,这是一个故事生成数据集,要求根据简要剧情摘要以及描述相关角色的若干文档,生成详细的电视剧剧集回顾。与现有其他故事生成数据集不同,TVStoryGen中的故事均由专业编剧创作,且包含多个角色之间复杂的互动关系。在该数据集上生成故事,需要结合简要摘要,从冗长的角色描述文档中提取相关信息。此外,我们提出在该数据集上训练逆向模型,以评估生成故事的忠实度。TVStoryGen的数据来源于粉丝贡献的网站,共收集了26,000条剧集回顾,平均每条包含1868.7个词元(tokens)。实证研究表明,采用分层式故事生成方法,使用“理想内容选择器”(oracle content selectors)来选取角色描述的神经网络模型在自动评估指标上表现最佳,充分展现了本数据集在推动带约束条件的故事生成研究方面的潜力。定性分析表明,表现最佳的模型有时仍会生成与简要摘要不符的内容,这为未来研究指明了具有前景的方向。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| story-generation-on-fandom-dev | (NN) Oracle plot + summary + oracle char. desc. | BLEU: 28.4 Perplexity: 17.9 ROUGE-1: 63.0 ROUGE-2: 32.8 ROUGE-L: 61.2 |
| story-generation-on-fandom-test | (NN) Oracle plot + summary + oracle char. desc. | BLEU: 28.4 Perplexity: 18.2 ROUGE-1: 63.2 ROUGE-2: 32.9 ROUGE-L: 61.5 |
| story-generation-on-tvmegasite-dev | (NN) Oracle plot + summary + oracle char. desc. | BLEU: 30.9 Perplexity: 15.7 ROUGE-1: 68.3 ROUGE-2: 44.0 ROUGE-L: 67.5 |
| story-generation-on-tvmegasite-test | (NN) Oracle plot + summary + oracle char. desc. | BLEU: 28.1 Perplexity: 18.3 ROUGE-1: 67.0 ROUGE-2: 40.9 ROUGE-L: 66.2 |