
摘要
近年来,对话式大型语言模型(LLMs)如ChatGPT和GPT-4在构建开放域对话代理方面展现了巨大的潜力。然而,由于角色表示的复杂性和缺乏全面注释,将这些代理与特定角色或个人对齐仍然是一个重大挑战。本文中,我们介绍了哈利·波特对话(HPD)数据集,旨在推动对话代理和角色对齐的研究。该数据集包含了《哈利·波特》系列中的所有对话场景(包括英文和中文),并标注了关键的背景信息,包括对话场景、说话者、角色关系和属性。这些广泛的注释可能有助于大型语言模型解锁以角色为中心的对话能力。此外,该数据集还可以作为评估大型语言模型与特定角色对齐效果的通用基准。我们在HPD数据集上使用微调和上下文学习两种设置对大型语言模型进行了基准测试。评估结果显示,尽管生成高质量、角色对齐响应的空间仍然很大,但所提出的数据集对于引导模型产生更符合哈利·波特角色特征的响应具有重要价值。
代码仓库
nuochenpku/harry-potter-dialogue-dataset
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| dialogue-generation-on-harry-potter-dialogue | EVA | mauve: 0.968 |
| dialogue-generation-on-harry-potter-dialogue | Per-BOB | mauve: 0.948 |
| pesona-dialogue-in-story-on-harry-potter | BERT-FP | Recall 10@1: 0.259 |