HyperAIHyperAI

Command Palette

Search for a command to run...

Lumina-DiMOO:一种用于多模态生成与理解的全模态扩散大型语言模型

Abstract

我们提出 Lumina-DiMOO,一个开源的基础模型,用于实现无缝的多模态生成与理解。Lumina-DiMOO 通过采用完全离散的扩散建模(fully discrete diffusion modeling)来处理跨多种模态的输入与输出,从而在结构上区别于以往的统一多模态模型。这一创新方法使其在采样效率方面显著优于先前的自回归(AR)或自回归-扩散混合(AR-Diffusion)范式,同时能够高效支持广泛的多模态任务,包括文本到图像生成、图像到图像生成(如图像编辑、主体驱动生成、图像修复等)以及图像理解。Lumina-DiMOO 在多个基准测试中取得了当前最优的性能,超越了现有的开源统一多模态模型。为推动多模态学习与离散扩散模型研究的进一步发展,我们已向社区公开项目代码与模型权重。项目主页:https://synbol.github.io/Lumina-DiMOO


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Lumina-DiMOO:一种用于多模态生成与理解的全模态扩散大型语言模型 | Papers | HyperAI超神经