3 个月前

USR:一种无监督且无需参考的对话生成评估指标

USR:一种无监督且无需参考的对话生成评估指标

摘要

对话任务缺乏有意义的自动评估指标,已成为开放域对话研究的主要瓶颈。现有标准的语言生成评估指标在对话模型评估中被证明效果不佳。为此,本文提出一种无参考、无监督的对话评估指标——USR(UnSupervised and Reference-free evaluation metric for dialog)。USR是一种无需参考文本的评估方法,通过训练无监督模型来衡量对话的多种理想特性。实验结果表明,USR在Topical-Chat数据集上与人工评价具有显著相关性(回合级相关系数为0.42,系统级为1.0),在PersonaChat数据集上同样表现优异(回合级相关系数为0.48,系统级为1.0)。此外,USR还能为对话的多项理想属性提供可解释的量化指标。

代码仓库

shikib/usr
官方
pytorch

基准测试

基准方法指标
dialogue-evaluation-on-usr-personachatUSR - MLM
Pearson Correlation: 0.0788
Spearman Correlation: 0.0795
dialogue-evaluation-on-usr-personachatUSR - DR (x = f)
Pearson Correlation: -0.0454
Spearman Correlation: -0.0495
dialogue-evaluation-on-usr-personachatUSR - DR (x = c)
Pearson Correlation: 0.6087
Spearman Correlation: 0.4814
dialogue-evaluation-on-usr-personachatUSR
Pearson Correlation: 0.4115
Spearman Correlation: 0.4693
dialogue-evaluation-on-usr-topicalchatUSR
Pearson Correlation: 0.4220
Spearman Correlation: 0.4192
dialogue-evaluation-on-usr-topicalchatUSR - DR (x = c)
Pearson Correlation: 0.4068
Spearman Correlation: 0.3245
dialogue-evaluation-on-usr-topicalchatUSR - DR (x = f)
Pearson Correlation: 0.3221
Spearman Correlation: 0.1419
dialogue-evaluation-on-usr-topicalchatUSR - MLM
Pearson Correlation: 0.3345
Spearman Correlation: 0.3086

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
USR:一种无监督且无需参考的对话生成评估指标 | 论文 | HyperAI超神经