3 个月前

TVStoryGen:一个用于生成包含角色描述的故事情节的数据集

TVStoryGen:一个用于生成包含角色描述的故事情节的数据集

摘要

我们提出了TVStoryGen,这是一个故事生成数据集,要求根据简要剧情摘要以及描述相关角色的若干文档,生成详细的电视剧剧集回顾。与现有其他故事生成数据集不同,TVStoryGen中的故事均由专业编剧创作,且包含多个角色之间复杂的互动关系。在该数据集上生成故事,需要结合简要摘要,从冗长的角色描述文档中提取相关信息。此外,我们提出在该数据集上训练逆向模型,以评估生成故事的忠实度。TVStoryGen的数据来源于粉丝贡献的网站,共收集了26,000条剧集回顾,平均每条包含1868.7个词元(tokens)。实证研究表明,采用分层式故事生成方法,使用“理想内容选择器”(oracle content selectors)来选取角色描述的神经网络模型在自动评估指标上表现最佳,充分展现了本数据集在推动带约束条件的故事生成研究方面的潜力。定性分析表明,表现最佳的模型有时仍会生成与简要摘要不符的内容,这为未来研究指明了具有前景的方向。

代码仓库

基准测试

基准方法指标
story-generation-on-fandom-dev(NN) Oracle plot + summary + oracle char. desc.
BLEU: 28.4
Perplexity: 17.9
ROUGE-1: 63.0
ROUGE-2: 32.8
ROUGE-L: 61.2
story-generation-on-fandom-test(NN) Oracle plot + summary + oracle char. desc.
BLEU: 28.4
Perplexity: 18.2
ROUGE-1: 63.2
ROUGE-2: 32.9
ROUGE-L: 61.5
story-generation-on-tvmegasite-dev(NN) Oracle plot + summary + oracle char. desc.
BLEU: 30.9
Perplexity: 15.7
ROUGE-1: 68.3
ROUGE-2: 44.0
ROUGE-L: 67.5
story-generation-on-tvmegasite-test(NN) Oracle plot + summary + oracle char. desc.
BLEU: 28.1
Perplexity: 18.3
ROUGE-1: 67.0
ROUGE-2: 40.9
ROUGE-L: 66.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TVStoryGen:一个用于生成包含角色描述的故事情节的数据集 | 论文 | HyperAI超神经