
摘要
本文介绍了DreamLLM,这是一种学习框架,首次实现了多功能多模态大语言模型(MLLMs),并充分利用了多模态理解和生成之间常被忽视的协同作用。DreamLLM基于两个基本原则运行。首先,该框架通过在原始多模态空间中直接采样来生成语言和图像的后验概率模型。这种方法避免了外部特征提取器(如CLIP)固有的局限性和信息损失,从而获得更全面的多模态理解。其次,DreamLLM促进生成原始交错文档,同时建模文本和图像内容以及非结构化布局。这使得DreamLLM能够有效地学习所有条件、边缘和联合多模态分布。因此,DreamLLM成为首个能够生成自由形式交错内容的MLLM。广泛的实验突显了DreamLLM作为零样本多模态通才模型的卓越性能,得益于增强的学习协同效应。项目页面:https://dreamllm.github.io。
代码仓库
RunpeiDong/DreamLLM
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-mm-vet | DreamLLM-7B | GPT-4 score: 35.9 Params: 7B |
| visual-question-answering-on-mmbench | DreamLLM-7B | GPT-3.5 score: 49.9 |