8 个月前

多模态表征

计算机视觉

Zhiyue Zhang Yuxuan Chen Yuhang Jiang Jianwei Yang Xiaowei Li

摘要

大多数多模态大语言模型（Multimodal Large Language Models, MLLMs）通过因果语言建模学习语言到对象的对齐，其中对齐的对象通过边界框作为位置标记序列来捕捉。这种范式缺乏像素级表示，而这些表示对于细粒度视觉理解和诊断至关重要。在本研究中，我们引入了GROUNDHOG，这是一种通过将大语言模型与整体分割对齐而开发的多模态大语言模型。GROUNDHOG结合了一个掩码特征提取器，并将提取的特征转换为视觉实体标记，供MLLM主干网络使用，然后通过检索和合并实体掩码，将可对齐的短语连接到统一的对齐掩码上。为了训练GROUNDHOG，我们精心策划了M3G2数据集，这是一个具有多模态多粒度对齐（Multi-Modal Multi-Grained Grounding）的接地视觉指令调优数据集，通过收集多个带有丰富注释的分割对齐数据集构建而成。实验结果表明，GROUNDHOG在各种语言对齐任务中表现出色，无需针对特定任务进行微调，并显著减少了对象幻觉现象。此外，GROUNDHOG还展示了对复杂形式视觉输入更好的对齐能力，并在失败案例中提供了易于理解的诊断信息。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Zhiyue Zhang Yuxuan Chen Yuhang Jiang Jianwei Yang Xiaowei Li

摘要

大多数多模态大语言模型（Multimodal Large Language Models, MLLMs）通过因果语言建模学习语言到对象的对齐，其中对齐的对象通过边界框作为位置标记序列来捕捉。这种范式缺乏像素级表示，而这些表示对于细粒度视觉理解和诊断至关重要。在本研究中，我们引入了GROUNDHOG，这是一种通过将大语言模型与整体分割对齐而开发的多模态大语言模型。GROUNDHOG结合了一个掩码特征提取器，并将提取的特征转换为视觉实体标记，供MLLM主干网络使用，然后通过检索和合并实体掩码，将可对齐的短语连接到统一的对齐掩码上。为了训练GROUNDHOG，我们精心策划了M3G2数据集，这是一个具有多模态多粒度对齐（Multi-Modal Multi-Grained Grounding）的接地视觉指令调优数据集，通过收集多个带有丰富注释的分割对齐数据集构建而成。实验结果表明，GROUNDHOG在各种语言对齐任务中表现出色，无需针对特定任务进行微调，并显著减少了对象幻觉现象。此外，GROUNDHOG还展示了对复杂形式视觉输入更好的对齐能力，并在失败案例中提供了易于理解的诊断信息。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供