
摘要
大型语言模型在各种任务上展示了令人印象深刻的小样本学习结果。然而,当知识对于这些结果至关重要时,例如问答和事实核查任务,似乎需要庞大的参数量来存储知识。检索增强模型已知在不需要如此多参数的情况下,能够出色地完成知识密集型任务,但它们是否适用于小样本设置仍不清楚。在这项工作中,我们介绍了Atlas,这是一种精心设计并预训练的检索增强语言模型,能够在仅有少量训练样本的情况下学习知识密集型任务。我们在一系列任务上进行了评估,包括MMLU、KILT和NaturalQuestions,并研究了文档索引内容的影响,表明其可以轻松更新。值得注意的是,Atlas仅使用64个样例就在NaturalQuestions上达到了超过42%的准确率,尽管其参数量仅为540亿参数模型的1/50,但仍比后者高出3个百分点。
代码仓库
thunlp/clueanchor
pytorch
GitHub 中提及
facebookresearch/atlas
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-task-language-understanding-on-mmlu | Atlas (5-shot) | Average (%): 47.9 |
| question-answering-on-natural-questions | Atlas (few-shot, k=64, Wiki-dec-2021+CC index) | EM: 42.4 |
| question-answering-on-natural-questions | Atlas (full, Wiki-dec-2018 index) | EM: 64.0 |
| question-answering-on-natural-questions | Atlas (full, Wiki-dec-2021+CC index) | EM: 60.4 |
| question-answering-on-natural-questions | Atlas (few-shot, k=64, Wiki-Dec-2018 index) | EM: 45.1 |