摘要

在本研究中，我们揭示了当前主流的视觉语言大模型（LVLM）架构对语言模态存在的固有偏差，这一现象主要源于将视觉嵌入简单拼接至输入文本序列的普遍做法。为解决该问题，我们提出一种简单而有效的方法：通过融合平均池化后的视觉特征来优化文本嵌入。实验表明，该方法显著提升了模型的视觉定位能力，并在多个标准基准上大幅减少了幻觉现象。尽管平均池化提供了一种简单、鲁棒且高效融合视觉信息的手段，我们相信，更复杂的融合策略有望进一步提升视觉定位效果与跨模态对齐能力。鉴于本研究的核心目标在于揭示模态失衡问题及其对幻觉生成的影响，并验证通过引入视觉信息优化文本嵌入可有效缓解该问题，因此，对先进融合策略的深入探索将留待未来工作开展。

源 PDF