3 个月前

TANDA:用于答案句子选择的预训练Transformer模型迁移与适配

TANDA:用于答案句子选择的预训练Transformer模型迁移与适配

摘要

我们提出TANDA,一种针对预训练Transformer模型在自然语言任务中进行微调的有效技术。具体而言,我们首先利用大规模高质量数据集对预训练模型进行微调,将其迁移为适用于通用任务的模型;随后,再进行第二阶段的微调,以将该迁移后的模型适配至目标领域。我们以问答系统中的经典推理任务——答案句子选择(Answer Sentence Selection)为例,验证了该方法的优势。为支持迁移阶段的训练,我们构建了一个大规模数据集,充分利用了Natural Questions数据集。实验结果表明,TANDA在两个知名基准测试集WikiQA和TREC-QA上均取得了当前最优性能,分别达到了92%和94.3%的平均精度均值(MAP),显著超越了近期最先进方法所获得的83.4%和87.5%的最高成绩。我们通过实证研究进一步证明,TANDA能够生成更加稳定且鲁棒的模型,从而显著降低对最优超参数选择的依赖性。此外,我们还发现,TANDA中的迁移阶段可增强适应阶段对噪声的鲁棒性,使得在微调过程中能够更高效地利用含噪声的数据集。最后,我们在工业场景中也验证了TANDA的积极效果,使用多种存在不同类型噪声的领域特定数据集进行测试,结果表明该方法在实际应用中同样具有显著优势。

代码仓库

alexa/wqa_tanda
官方
GitHub 中提及
samrelins/tanda_search_qa_tool
pytorch
GitHub 中提及

基准测试

基准方法指标
question-answering-on-trecqaTANDA-RoBERTa (ASNQ, TREC-QA)
MAP: 0.943
MRR: 0.974
question-answering-on-wikiqaTANDA-RoBERTa (ASNQ, WikiQA)
MAP: 0.920
MRR: 0.933

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TANDA:用于答案句子选择的预训练Transformer模型迁移与适配 | 论文 | HyperAI超神经