8 个月前

自然语言处理

自然语言处理

Samuel Humeau Kurt Shuster Marie-Anne Lachaux Jason Weston

摘要

深度预训练双向 Transformer 在多个应用中取得了显著进展（Devlin等人，2018年）。对于需要对序列进行成对比较的任务，即将给定输入与相应的标签匹配，通常采用两种方法：一种是跨编码器（Cross-encoders），它对成对序列执行完整的自注意力机制；另一种是双编码器（Bi-encoders），它分别对每个序列进行编码。前者通常表现更好，但速度过慢，难以实际应用。在这项工作中，我们开发了一种新的 Transformer 架构——Poly-encoder，该架构学习全局而非令牌级别的自注意力特征。我们对这三种方法进行了详细的对比分析，包括哪些预训练和微调策略最为有效。我们展示了我们的模型在三个现有任务上达到了最先进的结果；Poly-encoder比跨编码器更快，且比双编码器更准确；并且通过在类似于下游任务的大数据集上进行预训练可以获得最佳结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

自然语言处理

Samuel Humeau Kurt Shuster Marie-Anne Lachaux Jason Weston

摘要

深度预训练双向 Transformer 在多个应用中取得了显著进展（Devlin等人，2018年）。对于需要对序列进行成对比较的任务，即将给定输入与相应的标签匹配，通常采用两种方法：一种是跨编码器（Cross-encoders），它对成对序列执行完整的自注意力机制；另一种是双编码器（Bi-encoders），它分别对每个序列进行编码。前者通常表现更好，但速度过慢，难以实际应用。在这项工作中，我们开发了一种新的 Transformer 架构——Poly-encoder，该架构学习全局而非令牌级别的自注意力特征。我们对这三种方法进行了详细的对比分析，包括哪些预训练和微调策略最为有效。我们展示了我们的模型在三个现有任务上达到了最先进的结果；Poly-encoder比跨编码器更快，且比双编码器更准确；并且通过在类似于下游任务的大数据集上进行预训练可以获得最佳结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

多编码器：用于快速准确的多句子评分的Transformer架构和预训练策略 | 论文 | HyperAI超神经