3 个月前

开放域对话质量的代理指标

开放域对话质量的代理指标

摘要

开放域对话的自动评估仍是尚未完全解决的挑战。尽管该领域已有大量研究,但对话质量的评估仍主要依赖人工评判,导致大规模评估成本高昂。本文研究利用在通用语言理解评估(GLUE)基准上训练的深度学习模型,作为开放域对话质量的指示器。其核心思想是将GLUE中的各项任务视为评估对话质量的不同视角,从而减少对额外训练数据或作为质量参考的响应样本的依赖。由于该方法具备这一特性,能够推断出多种质量指标,并构建基于组件的综合评分。实验结果表明,该方法在统计上实现了高达0.7的相关系数。

基准测试

基准方法指标
dialogue-evaluation-on-usr-personachatLin-Reg (all)
Pearson Correlation: 0.5290
Spearman Correlation: 0.5382
dialogue-evaluation-on-usr-topicalchatLin-Reg (all)
Pearson Correlation: 0.4974
Spearman Correlation: 0.4877

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
开放域对话质量的代理指标 | 论文 | HyperAI超神经