6 个月前

统一多模态

Yaru Hao Haoyu Song Li Dong Shaohan Huang Zewen Chi Wenhui Wang Shuming Ma Furu Wei

摘要

基础模型因其在众多下游应用中的卓越表现而受到广泛关注。尽管在模型架构上已呈现出显著的趋同趋势，但大多数预训练模型仍主要针对特定任务或模态进行开发。在本工作中，我们提出将语言模型作为连接各类基础模型的通用接口。一组预训练编码器负责感知多种模态（如视觉与语言信息），并与一个语言模型相连接，该语言模型充当通用任务层。我们提出了一种半因果语言建模目标，用于联合预训练这一接口与模块化编码器。该方法融合了因果建模与非因果建模的优势与能力，实现了两者的最佳结合。具体而言，所提出的方法不仅继承了因果语言建模在上下文学习（in-context learning）和开放式生成方面的优势，同时由于采用双向编码器结构，也更有利于后续微调（fine-tuning）。更重要的是，我们的方法能够无缝整合上述多种能力，例如支持在微调后的编码器上实现上下文学习或指令遵循。在多种仅语言及视觉-语言基准任务上的实验结果表明，我们的模型在微调性能、零样本泛化以及少样本学习方面均优于或媲美专门设计的模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

统一多模态

Yaru Hao Haoyu Song Li Dong Shaohan Huang Zewen Chi Wenhui Wang Shuming Ma Furu Wei

摘要

基础模型因其在众多下游应用中的卓越表现而受到广泛关注。尽管在模型架构上已呈现出显著的趋同趋势，但大多数预训练模型仍主要针对特定任务或模态进行开发。在本工作中，我们提出将语言模型作为连接各类基础模型的通用接口。一组预训练编码器负责感知多种模态（如视觉与语言信息），并与一个语言模型相连接，该语言模型充当通用任务层。我们提出了一种半因果语言建模目标，用于联合预训练这一接口与模块化编码器。该方法融合了因果建模与非因果建模的优势与能力，实现了两者的最佳结合。具体而言，所提出的方法不仅继承了因果语言建模在上下文学习（in-context learning）和开放式生成方面的优势，同时由于采用双向编码器结构，也更有利于后续微调（fine-tuning）。更重要的是，我们的方法能够无缝整合上述多种能力，例如支持在微调后的编码器上实现上下文学习或指令遵循。在多种仅语言及视觉-语言基准任务上的实验结果表明，我们的模型在微调性能、零样本泛化以及少样本学习方面均优于或媲美专门设计的模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供