4 个月前

DreamLLM:协同多模态理解与生成

DreamLLM:协同多模态理解与生成

摘要

本文介绍了DreamLLM,这是一种学习框架,首次实现了多功能多模态大语言模型(MLLMs),并充分利用了多模态理解和生成之间常被忽视的协同作用。DreamLLM基于两个基本原则运行。首先,该框架通过在原始多模态空间中直接采样来生成语言和图像的后验概率模型。这种方法避免了外部特征提取器(如CLIP)固有的局限性和信息损失,从而获得更全面的多模态理解。其次,DreamLLM促进生成原始交错文档,同时建模文本和图像内容以及非结构化布局。这使得DreamLLM能够有效地学习所有条件、边缘和联合多模态分布。因此,DreamLLM成为首个能够生成自由形式交错内容的MLLM。广泛的实验突显了DreamLLM作为零样本多模态通才模型的卓越性能,得益于增强的学习协同效应。项目页面:https://dreamllm.github.io。

代码仓库

RunpeiDong/DreamLLM
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-mm-vetDreamLLM-7B
GPT-4 score: 35.9
Params: 7B
visual-question-answering-on-mmbenchDreamLLM-7B
GPT-3.5 score: 49.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DreamLLM:协同多模态理解与生成 | 论文 | HyperAI超神经