4 个月前

GEM基准:自然语言生成、其评估和度量标准

GEM基准:自然语言生成、其评估和度量标准

摘要

我们介绍了一种名为GEM的动态基准,用于自然语言生成(NLG)、其评估和度量。衡量NLG领域的进展依赖于一个不断演化的生态系统,包括自动化度量、数据集和人类评估标准。由于这一目标在不断变化,新的模型通常仍然使用以英语为中心且存在缺陷但已广为接受的数据集进行评估。这种脱节使得识别当前模型的局限性和进步机会变得困难。为了解决这一问题,GEM提供了一个环境,在该环境中,模型可以轻松应用于广泛的任务,并测试不同的评估策略。基准的定期更新将有助于NLG研究变得更加多语言化,并随着模型的发展而进化挑战。本文作为我们在ACL 2021研讨会组织的一项共享任务的数据描述,并邀请整个NLG社区参与其中。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GEM基准:自然语言生成、其评估和度量标准 | 论文 | HyperAI超神经