8 个月前

计算机视觉

Alec Radford * Jong Wook Kim * Chris Hallacy Aditya Ramesh Gabriel Goh Sandhini Agarwal Girish Sastry Amanda Askell Pamela Mishkin Jack Clark

摘要

最先进的计算机视觉系统被训练用于预测一组固定的预定义对象类别。这种受限的监督形式限制了它们的通用性和可用性，因为需要额外的标注数据来指定任何其他视觉概念。直接从图像的原始文本中学习是一种有前景的替代方案，它利用了更为广泛的数据来源进行监督。我们证明，通过预测哪些标题与哪些图像匹配这一简单的预训练任务，可以在一个包含4亿个（图像，文本）对的数据集上从零开始高效且可扩展地学习到最先进（SOTA）的图像表示。该数据集是从互联网收集的。预训练完成后，自然语言被用来引用已学的视觉概念（或描述新的概念），从而实现模型在下游任务中的零样本迁移。我们通过在30多个现有的计算机视觉数据集上进行基准测试来研究这种方法的性能，这些数据集涵盖了诸如光学字符识别（OCR）、视频中的动作识别、地理定位以及多种细粒度的对象分类任务。该模型在大多数任务中都能非平凡地迁移，并且通常在不需要任何特定数据集训练的情况下与完全监督基线模型具有竞争力。例如，在ImageNet上进行零样本迁移时，我们的模型达到了与原始ResNet-50相同的准确率，而无需使用其训练过程中所依赖的128万个训练样本中的任何一个。我们将在https://github.com/OpenAI/CLIP发布代码和预训练模型权重。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Alec Radford * Jong Wook Kim * Chris Hallacy Aditya Ramesh Gabriel Goh Sandhini Agarwal Girish Sastry Amanda Askell Pamela Mishkin Jack Clark

摘要

最先进的计算机视觉系统被训练用于预测一组固定的预定义对象类别。这种受限的监督形式限制了它们的通用性和可用性，因为需要额外的标注数据来指定任何其他视觉概念。直接从图像的原始文本中学习是一种有前景的替代方案，它利用了更为广泛的数据来源进行监督。我们证明，通过预测哪些标题与哪些图像匹配这一简单的预训练任务，可以在一个包含4亿个（图像，文本）对的数据集上从零开始高效且可扩展地学习到最先进（SOTA）的图像表示。该数据集是从互联网收集的。预训练完成后，自然语言被用来引用已学的视觉概念（或描述新的概念），从而实现模型在下游任务中的零样本迁移。我们通过在30多个现有的计算机视觉数据集上进行基准测试来研究这种方法的性能，这些数据集涵盖了诸如光学字符识别（OCR）、视频中的动作识别、地理定位以及多种细粒度的对象分类任务。该模型在大多数任务中都能非平凡地迁移，并且通常在不需要任何特定数据集训练的情况下与完全监督基线模型具有竞争力。例如，在ImageNet上进行零样本迁移时，我们的模型达到了与原始ResNet-50相同的准确率，而无需使用其训练过程中所依赖的128万个训练样本中的任何一个。我们将在https://github.com/OpenAI/CLIP发布代码和预训练模型权重。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供