6 个月前

多任务学习

Jaemin Cho Jie Lei Hao Tan Mohit Bansal

摘要

现有的视觉与语言学习方法通常需要为每个任务设计特定的架构和目标。例如，视觉问答任务需要多标签答案分类器，指代表达理解任务需要区域评分模块，图像描述生成任务则需要语言解码器等。为缓解此类繁琐设计，本文提出一种统一框架，仅使用单一架构和相同的语言建模目标——即多模态条件文本生成——来学习多种任务。在此框架下，模型根据视觉和文本输入生成相应的文本标签。在7个主流的视觉与语言基准测试上（包括视觉问答、指代表达理解、视觉常识推理等任务，其中多数以往被建模为判别式任务），我们的生成式方法（采用单一统一架构）达到了与近期针对特定任务设计的最先进模型相当的性能。此外，该生成式方法在处理答案较为罕见的问题时展现出更优的泛化能力。同时，我们证明该框架可在单一架构和一组参数下实现多任务学习，其性能可媲美经过独立优化的单任务模型。相关代码已公开，地址为：https://github.com/j-min/VL-T5。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

Jaemin Cho Jie Lei Hao Tan Mohit Bansal

摘要

现有的视觉与语言学习方法通常需要为每个任务设计特定的架构和目标。例如，视觉问答任务需要多标签答案分类器，指代表达理解任务需要区域评分模块，图像描述生成任务则需要语言解码器等。为缓解此类繁琐设计，本文提出一种统一框架，仅使用单一架构和相同的语言建模目标——即多模态条件文本生成——来学习多种任务。在此框架下，模型根据视觉和文本输入生成相应的文本标签。在7个主流的视觉与语言基准测试上（包括视觉问答、指代表达理解、视觉常识推理等任务，其中多数以往被建模为判别式任务），我们的生成式方法（采用单一统一架构）达到了与近期针对特定任务设计的最先进模型相当的性能。此外，该生成式方法在处理答案较为罕见的问题时展现出更优的泛化能力。同时，我们证明该框架可在单一架构和一组参数下实现多任务学习，其性能可媲美经过独立优化的单任务模型。相关代码已公开，地址为：https://github.com/j-min/VL-T5。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供