3 个月前

在视觉问答任务中实现人类水平的性能

在视觉问答任务中实现人类水平的性能

摘要

视觉问答(Visual Question Answering, VQA)任务通过融合视觉图像分析与语言理解,旨在根据给定图像回答文本形式的问题。在过去十年中,该任务因其广泛的实际应用前景而成为研究热点,相关研究持续蓬勃发展。本文介绍了我们近期在AliceMind-MMU(阿里巴巴达摩院机器智能实验室构建的编码器-解码器模型集合——多模态理解)方面的研究成果。该模型在VQA任务上的表现已达到甚至在某些情况下超越人类水平。这一突破主要得益于对VQA流水线的系统性优化,具体包括:(1)基于全面视觉与文本特征表示的预训练策略;(2)通过“学习注意力机制”实现高效的跨模态交互;(3)提出一种新颖的知识挖掘框架,集成针对复杂VQA任务设计的专业化专家模块。针对不同类型视觉问题采用相应专业能力进行处理,显著提升了模型整体性能,使其达到人类级水平。为充分验证该研究工作的有效性,我们开展了大量实验与深入分析,结果表明所提方法在多个标准数据集上均取得了优异表现,进一步证明了其在提升VQA系统智能水平方面的潜力与价值。

基准测试

基准方法指标
visual-question-answering-on-vqa-v2-test-devMMU
Accuracy: 81.26

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
在视觉问答任务中实现人类水平的性能 | 论文 | HyperAI超神经