4 个月前

ConveRT:基于Transformer的高效准确的对话表示方法

ConveRT:基于Transformer的高效准确的对话表示方法

摘要

通用预训练句子编码器(如BERT)并不适合实际的对话式人工智能应用;它们计算量大、速度慢且训练成本高昂。我们提出了一种名为ConveRT(基于Transformer的对话表示)的预训练框架,该框架满足以下所有要求:高效、经济且快速训练。我们使用基于检索的响应选择任务进行预训练,通过在双编码器中有效利用量化和子词级别的参数化,构建了一个轻量级且节能高效的模型。实验结果表明,ConveRT在广泛认可的响应选择任务中达到了最先进的性能。此外,我们还证明了将扩展的对话历史作为上下文可以进一步提高性能。最后,我们展示了所提出的编码器的预训练表示可以迁移到意图分类任务中,在三个不同的数据集上均取得了优异的结果。ConveRT的训练速度显著快于标准句子编码器或之前的最先进双编码器。凭借其较小的规模和卓越的性能,我们认为该模型为对话式人工智能应用提供了更广泛的可移植性和可扩展性。

代码仓库

jordiclive/Convert-PolyAI-Torch
pytorch
GitHub 中提及
koujm/convert-tf
tf
GitHub 中提及
golsun/dialogrpt
pytorch
GitHub 中提及
davidalami/convert
tf
GitHub 中提及

基准测试

基准方法指标
conversational-response-selection-on-dstc7Multi-context ConveRT
1-of-100 Accuracy: 71.2%
conversational-response-selection-on-polyaiConveRT
1-of-100 Accuracy: 68.3%
conversational-response-selection-on-polyaiMulti-context ConveRT
1-of-100 Accuracy: 71.8%
conversational-response-selection-on-polyai-2ConveRT
1-of-100 Accuracy: 84.3%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ConveRT:基于Transformer的高效准确的对话表示方法 | 论文 | HyperAI超神经