3 个月前

语言模型是通用接口

语言模型是通用接口

摘要

基础模型因其在众多下游应用中的卓越表现而受到广泛关注。尽管在模型架构上已呈现出显著的趋同趋势,但大多数预训练模型仍主要针对特定任务或模态进行开发。在本工作中,我们提出将语言模型作为连接各类基础模型的通用接口。一组预训练编码器负责感知多种模态(如视觉与语言信息),并与一个语言模型相连接,该语言模型充当通用任务层。我们提出了一种半因果语言建模目标,用于联合预训练这一接口与模块化编码器。该方法融合了因果建模与非因果建模的优势与能力,实现了两者的最佳结合。具体而言,所提出的方法不仅继承了因果语言建模在上下文学习(in-context learning)和开放式生成方面的优势,同时由于采用双向编码器结构,也更有利于后续微调(fine-tuning)。更重要的是,我们的方法能够无缝整合上述多种能力,例如支持在微调后的编码器上实现上下文学习或指令遵循。在多种仅语言及视觉-语言基准任务上的实验结果表明,我们的模型在微调性能、零样本泛化以及少样本学习方面均优于或媲美专门设计的模型。

代码仓库

microsoft/unilm
官方
pytorch

基准测试

基准方法指标
image-captioning-on-flickr30k-captions-testMetaLM
CIDEr: 43.3
SPICE: 11.7
image-captioning-on-nocaps-valMetaLM
CIDEr: 58.7
SPICE: 8.6
visual-question-answering-on-ok-vqaMetaLM
Accuracy: 11.4
visual-question-answering-on-vqa-v2-valMetaLM
Accuracy: 41.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
语言模型是通用接口 | 论文 | HyperAI超神经