HyperAI超神经

摘要

基于图像-文本对的大规模预训练方法在视觉-语言任务中日益流行。现有方法通常简单地将图像区域特征与文本特征拼接作为模型输入，并通过自注意力机制以“蛮力”方式学习图像与文本之间的语义对齐。本文提出一种新的预训练方法——Oscar（Object-Semantics Aligned Pre-training），该方法利用图像中检测到的物体标签作为锚点，显著降低对齐学习的难度。这一方法的提出基于一个观察：图像中的显著物体通常能够被准确检测到，且常在对应的文本中被提及。我们在包含650万对图文数据的公开语料库上预训练Oscar模型，并在下游任务中进行微调，成功在六个广受认可的视觉-语言理解与生成任务上刷新了当前最优性能（SOTA）。

摘要

Xiujun Li Xi Yin Chunyuan Li Pengchuan Zhang Xiaowei Hu Lei Zhang Lijuan Wang Houdong Hu Li Dong Furu Wei

摘要

用 AI 构建 AI

HyperAI Newsletters

Xiujun Li Xi Yin Chunyuan Li Pengchuan Zhang Xiaowei Hu Lei Zhang Lijuan Wang Houdong Hu Li Dong Furu Wei

摘要

用 AI 构建 AI

HyperAI Newsletters

Xiujun Li Xi Yin Chunyuan Li Pengchuan Zhang Xiaowei Hu Lei Zhang Lijuan Wang Houdong Hu Li Dong Furu Wei

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Oscar：面向视觉-语言任务的物体语义对齐预训练

Xiujun Li Xi Yin Chunyuan Li Pengchuan Zhang Xiaowei Hu Lei Zhang Lijuan Wang Houdong Hu Li Dong Furu Wei2 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Oscar：面向视觉-语言任务的物体语义对齐预训练

Xiujun Li Xi Yin Chunyuan Li Pengchuan Zhang Xiaowei Hu Lei Zhang Lijuan Wang Houdong Hu Li Dong Furu Wei2 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Oscar：面向视觉-语言任务的物体语义对齐预训练

Xiujun Li Xi Yin Chunyuan Li Pengchuan Zhang Xiaowei Hu Lei Zhang Lijuan Wang Houdong Hu Li Dong Furu Wei2 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Xiujun Li Xi Yin Chunyuan Li Pengchuan Zhang Xiaowei Hu Lei Zhang Lijuan Wang Houdong Hu Li Dong Furu Wei

Xiujun Li Xi Yin Chunyuan Li Pengchuan Zhang Xiaowei Hu Lei Zhang Lijuan Wang Houdong Hu Li Dong Furu Wei

Xiujun Li Xi Yin Chunyuan Li Pengchuan Zhang Xiaowei Hu Lei Zhang Lijuan Wang Houdong Hu Li Dong Furu Wei