3 个月前

通过文本生成统一视觉-语言任务

通过文本生成统一视觉-语言任务

摘要

现有的视觉与语言学习方法通常需要为每个任务设计特定的架构和目标。例如,视觉问答任务需要多标签答案分类器,指代表达理解任务需要区域评分模块,图像描述生成任务则需要语言解码器等。为缓解此类繁琐设计,本文提出一种统一框架,仅使用单一架构和相同的语言建模目标——即多模态条件文本生成——来学习多种任务。在此框架下,模型根据视觉和文本输入生成相应的文本标签。在7个主流的视觉与语言基准测试上(包括视觉问答、指代表达理解、视觉常识推理等任务,其中多数以往被建模为判别式任务),我们的生成式方法(采用单一统一架构)达到了与近期针对特定任务设计的最先进模型相当的性能。此外,该生成式方法在处理答案较为罕见的问题时展现出更优的泛化能力。同时,我们证明该框架可在单一架构和一组参数下实现多任务学习,其性能可媲美经过独立优化的单任务模型。相关代码已公开,地址为:https://github.com/j-min/VL-T5。

代码仓库

mitvis/vistext
pytorch
GitHub 中提及
j-min/VL-T5
官方
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过文本生成统一视觉-语言任务 | 论文 | HyperAI超神经