
摘要
现有的视觉与语言学习方法通常需要为每个任务设计特定的架构和目标。例如,视觉问答任务需要多标签答案分类器,指代表达理解任务需要区域评分模块,图像描述生成任务则需要语言解码器等。为缓解此类繁琐设计,本文提出一种统一框架,仅使用单一架构和相同的语言建模目标——即多模态条件文本生成——来学习多种任务。在此框架下,模型根据视觉和文本输入生成相应的文本标签。在7个主流的视觉与语言基准测试上(包括视觉问答、指代表达理解、视觉常识推理等任务,其中多数以往被建模为判别式任务),我们的生成式方法(采用单一统一架构)达到了与近期针对特定任务设计的最先进模型相当的性能。此外,该生成式方法在处理答案较为罕见的问题时展现出更优的泛化能力。同时,我们证明该框架可在单一架构和一组参数下实现多任务学习,其性能可媲美经过独立优化的单任务模型。相关代码已公开,地址为:https://github.com/j-min/VL-T5。
代码仓库
mitvis/vistext
pytorch
GitHub 中提及
j-min/VL-T5
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-captioning-on-flickr30k-captions-test | VL-T5 | CIDEr: 2.6 SPICE: 2.0 |
| image-captioning-on-nocaps-val | VL-T5 | CIDEr: 4.4 SPICE: 5.3 |
| visual-question-answering-on-vcr-q-a-test | VL-T5 | Accuracy: 75.3 |
| visual-question-answering-on-vcr-q-ar-test | VL-T5 | Accuracy: 58.9 |
| visual-question-answering-on-vcr-qa-r-test | VL-T5 | Accuracy: 77.8 |