HyperAIHyperAI

Command Palette

Search for a command to run...

Oscar:面向视觉-语言任务的物体语义对齐预训练

摘要

基于图像-文本对的大规模预训练方法在视觉-语言任务中日益流行。现有方法通常简单地将图像区域特征与文本特征拼接作为模型输入,并通过自注意力机制以“蛮力”方式学习图像与文本之间的语义对齐。本文提出一种新的预训练方法——Oscar(Object-Semantics Aligned Pre-training),该方法利用图像中检测到的物体标签作为锚点,显著降低对齐学习的难度。这一方法的提出基于一个观察:图像中的显著物体通常能够被准确检测到,且常在对应的文本中被提及。我们在包含650万对图文数据的公开语料库上预训练Oscar模型,并在下游任务中进行微调,成功在六个广受认可的视觉-语言理解与生成任务上刷新了当前最优性能(SOTA)。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Oscar:面向视觉-语言任务的物体语义对齐预训练 | 论文 | HyperAI超神经