HyperAIHyperAI

Command Palette

Search for a command to run...

视觉语言模型中视觉定位的理解研究

Georgios Pantazopoulos Eda B. Özyiğit

Abstract

视觉定位(Visual grounding)是指模型识别视觉输入中与文本描述相匹配区域的能力。因此,具备视觉定位能力的模型可广泛应用于多个领域,涵盖指代表达理解、针对图像或视频中细粒度细节的问题回答、通过显式引用实体来生成视觉上下文描述,以及在模拟环境和真实环境中实现低层级与高层级的控制任务。在本文综述中,我们系统回顾了现代通用视觉语言模型(VLMs)研究关键领域中的代表性工作。首先,我们阐述了视觉定位在VLMs中的重要性;随后,梳理了当前构建具身模型的核心构成要素,探讨其在实际应用中的表现,包括用于评估具身多模态生成的基准数据集与评价指标;进一步,我们分析了视觉定位、多模态思维链(multimodal chain-of-thought)以及VLMs中推理能力之间的多重内在关联。最后,我们剖析了视觉定位所面临的核心挑战,并提出了未来研究具有前景的发展方向。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉语言模型中视觉定位的理解研究 | Papers | HyperAI超神经