8 个月前

摘要

大型多模态模型（LMMs）通过引入多感官技能，如视觉理解，扩展了大型语言模型（LLMs）的功能，以实现更强的通用智能。本文分析了最新的模型——GPT-4V(ision)，旨在深化对多模态模型的理解。分析重点在于GPT-4V能够执行的引人入胜的任务，包括测试样本以探究其能力的质量和通用性、支持的输入类型和工作模式，以及有效的提示方法。在探索GPT-4V的过程中，我们精心设计并组织了一组涵盖多个领域和任务的定性样本。这些样本的观察结果表明，GPT-4V在处理任意交织的多模态输入方面具有前所未有的能力，其功能的通用性使得GPT-4V成为一个强大的多模态通才系统。此外，GPT-4V独特的理解输入图像上绘制的视觉标记的能力可以催生新的交互方法，例如视觉引用提示。报告最后深入讨论了基于GPT-4V系统的新兴应用场景及未来研究方向。我们希望这一初步探索能够激发对未来多模态任务形式的研究、探索和增强LMMs以解决实际问题的新方法，以及更好地理解多模态基础模型。最后，我们承认所研究的模型完全是OpenAI创新工作的产物，并对其开发给予充分的认可。有关作者身份和贡献归属的信息，请参阅GPT-4V贡献论文：https://cdn.openai.com/contributions/gpt-4v.pdf

源 PDF 查看代码