HyperAIHyperAI

Command Palette

Search for a command to run...

开放域对话质量的代理指标

Ricardo Usbeck Jens Lehmann Rostislav Nedelchev

摘要

开放域对话的自动评估仍是尚未完全解决的挑战。尽管该领域已有大量研究,但对话质量的评估仍主要依赖人工评判,导致大规模评估成本高昂。本文研究利用在通用语言理解评估(GLUE)基准上训练的深度学习模型,作为开放域对话质量的指示器。其核心思想是将GLUE中的各项任务视为评估对话质量的不同视角,从而减少对额外训练数据或作为质量参考的响应样本的依赖。由于该方法具备这一特性,能够推断出多种质量指标,并构建基于组件的综合评分。实验结果表明,该方法在统计上实现了高达0.7的相关系数。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
开放域对话质量的代理指标 | 论文 | HyperAI超神经