Ming YanHaiyang XuChenliang LiJunfeng TianBin BiWei WangWeihua ChenXianzhe XuFan WangZheng CaoZhicheng ZhangQiyu ZhangJi ZhangSongfang HuangFei HuangLuo SiRong Jin

摘要
视觉问答(Visual Question Answering, VQA)任务通过融合视觉图像分析与语言理解,旨在根据给定图像回答文本形式的问题。在过去十年中,该任务因其广泛的实际应用前景而成为研究热点,相关研究持续蓬勃发展。本文介绍了我们近期在AliceMind-MMU(阿里巴巴达摩院机器智能实验室构建的编码器-解码器模型集合——多模态理解)方面的研究成果。该模型在VQA任务上的表现已达到甚至在某些情况下超越人类水平。这一突破主要得益于对VQA流水线的系统性优化,具体包括:(1)基于全面视觉与文本特征表示的预训练策略;(2)通过“学习注意力机制”实现高效的跨模态交互;(3)提出一种新颖的知识挖掘框架,集成针对复杂VQA任务设计的专业化专家模块。针对不同类型视觉问题采用相应专业能力进行处理,显著提升了模型整体性能,使其达到人类级水平。为充分验证该研究工作的有效性,我们开展了大量实验与深入分析,结果表明所提方法在多个标准数据集上均取得了优异表现,进一步证明了其在提升VQA系统智能水平方面的潜力与价值。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-vqa-v2-test-dev | MMU | Accuracy: 81.26 |