HyperAIHyperAI

Command Palette

Search for a command to run...

语言模型是无监督多任务学习者

Jeffrey Wu Rewon Child Ilya Sutskever David Luan Alec Radford Dario Amodei

摘要

自然语言处理任务,如问答、机器翻译、阅读理解与摘要生成,通常通过在特定任务数据集上采用监督学习方法来实现。我们证明,当在一项包含数百万网页的新数据集——WebText上进行训练时,语言模型无需任何显式监督即可开始学习这些任务。在给定文档和问题作为条件的情况下,该语言模型生成的答案在CoQA数据集上达到了55的F1分数,其性能与现有四种基线系统中的三种相当,甚至超过其中三种,且完全未使用超过12.7万个训练样本。语言模型的容量对于零样本任务迁移的成功至关重要,且随着模型容量的增加,其在各类任务上的性能呈对数线性提升。我们最大的模型GPT-2是一个拥有15亿参数的Transformer模型,在零样本设置下,于8个测试的语言建模数据集中取得了7个的最先进结果,但仍未能充分拟合WebText数据。模型生成的样本反映出这些性能提升,其输出包含结构连贯的文本段落。这些发现表明,通过利用自然语言中固有的示范实例来学习执行任务,是一条极具前景的语言处理系统构建路径。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供