8 个月前

统一多模态

Quan Sun Yufeng Cui Xiaosong Zhang Fan Zhang Qiying Yu Zhengxiong Luo Yueze Wang Yongming Rao Jingjing Liu Tiejun Huang

摘要

人类在特定情境下轻松解决多模态任务的能力（即仅需少量示例或简单指令即可完成），是当前多模态系统难以有效模仿的一大挑战。在这项研究中，我们展示了通过有效的扩展，大型多模态模型的任务无关上下文学习能力可以显著提升。我们引入了Emu2，这是一款具有370亿参数的生成式多模态模型，训练数据为大规模多模态序列，并采用了统一的自回归目标。Emu2表现出强大的多模态上下文学习能力，甚至能够解决需要即时推理的任务，如视觉提示和基于对象的生成。该模型在少样本设置下的多个多模态理解任务中创下了新的记录。当经过指令微调以遵循特定指令时，Emu2在诸如大型多模态模型的问题回答基准测试和开放式的主题驱动生成等复杂任务上进一步达到了新的最先进水平。这些成就表明，Emu2可以作为基础模型和通用接口，应用于广泛的多模态任务。代码和模型已公开发布，以促进未来的研究。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

统一多模态

Quan Sun Yufeng Cui Xiaosong Zhang Fan Zhang Qiying Yu Zhengxiong Luo Yueze Wang Yongming Rao Jingjing Liu Tiejun Huang

摘要

人类在特定情境下轻松解决多模态任务的能力（即仅需少量示例或简单指令即可完成），是当前多模态系统难以有效模仿的一大挑战。在这项研究中，我们展示了通过有效的扩展，大型多模态模型的任务无关上下文学习能力可以显著提升。我们引入了Emu2，这是一款具有370亿参数的生成式多模态模型，训练数据为大规模多模态序列，并采用了统一的自回归目标。Emu2表现出强大的多模态上下文学习能力，甚至能够解决需要即时推理的任务，如视觉提示和基于对象的生成。该模型在少样本设置下的多个多模态理解任务中创下了新的记录。当经过指令微调以遵循特定指令时，Emu2在诸如大型多模态模型的问题回答基准测试和开放式的主题驱动生成等复杂任务上进一步达到了新的最先进水平。这些成就表明，Emu2可以作为基础模型和通用接口，应用于广泛的多模态任务。代码和模型已公开发布，以促进未来的研究。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供