3 个月前

基于段落的Transformer预训练用于多句推理

基于段落的Transformer预训练用于多句推理

摘要

诸如答案句子选择(AS2)或事实验证等推理任务,通常通过微调基于Transformer的模型作为独立的句子对分类器来解决。近期研究表明,通过联合建模多个候选句子之间的依赖关系,可以显著提升这些任务的性能。本文首先指出,当将流行的预训练Transformer模型直接用于多候选推理任务的微调时,其表现较差。为此,我们提出了一种新的预训练目标,旨在建模多个输入句子之间的段落级语义关系。在三个AS2数据集和一个事实验证数据集上的实验结果表明,与传统的预训练方法相比,我们的预训练技术在将Transformer用作多候选推理任务的联合模型,以及用于这些任务的句子对交叉编码器(cross-encoder)架构时,均展现出显著优势。相关代码与预训练模型已开源,地址为:https://github.com/amazon-research/wqa-multi-sentence-inference。

代码仓库

基准测试

基准方法指标
answer-selection-on-asnqRoBERTa-Base Joint MSPP
MAP: 0.673
MRR: 0.737
fact-verification-on-feverRoBERTa-Base Joint MSPP
Accuracy: 74.39
fact-verification-on-feverRoBERTa-Base Joint MSPP Flexible
Accuracy: 75.36
question-answering-on-trecqaRoBERTa-Base Joint + MSPP
MAP: 0.911
MRR: 0.952
question-answering-on-wikiqaRoBERTa-Base Joint MSPP
MAP: 0.887
MRR: 0.900

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于段落的Transformer预训练用于多句推理 | 论文 | HyperAI超神经