HyperAIHyperAI

Command Palette

Search for a command to run...

通过优化文本嵌入缓解大型视觉-语言模型中的幻觉问题

Aakriti Agrawal Gouthaman KV Rohith Aralikatti Gauri Jagatap Jiaxin Yuan Vijay Kamarshi Andrea Fanelli Furong Huang

Abstract

在本研究中,我们揭示了当前主流的视觉语言大模型(LVLM)架构对语言模态存在的固有偏差,这一现象主要源于将视觉嵌入简单拼接至输入文本序列的普遍做法。为解决该问题,我们提出一种简单而有效的方法:通过融合平均池化后的视觉特征来优化文本嵌入。实验表明,该方法显著提升了模型的视觉定位能力,并在多个标准基准上大幅减少了幻觉现象。尽管平均池化提供了一种简单、鲁棒且高效融合视觉信息的手段,我们相信,更复杂的融合策略有望进一步提升视觉定位效果与跨模态对齐能力。鉴于本研究的核心目标在于揭示模态失衡问题及其对幻觉生成的影响,并验证通过引入视觉信息优化文本嵌入可有效缓解该问题,因此,对先进融合策略的深入探索将留待未来工作开展。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过优化文本嵌入缓解大型视觉-语言模型中的幻觉问题 | Papers | HyperAI超神经