
摘要
本文档描述了Facebook人工智能研究院(FAIR)A-STAR团队在2018年VQA挑战赛中的获胜作品Pythia v0.1。我们的起点是对自下而上至自上而下的(bottom-up top-down,简称up-down)模型进行模块化的重新实现。我们证明了通过对模型架构和学习率调度进行细微但重要的修改,微调图像特征并添加数据增强,可以显著提高up-down模型在VQA v2.0数据集上的性能——从65.67%提升到70.22%。此外,通过使用不同特征和不同数据集训练的多样化模型组合,我们能够在“标准”集成方法(即同一模型使用不同的随机种子)的基础上进一步显著提升1.31%。总体而言,我们在VQA v2.0数据集的test-std分割上达到了72.27%的准确率。我们的全部代码(包括训练、评估、数据增强和集成)以及预训练模型均已公开发布于:https://github.com/facebookresearch/pythia
代码仓库
songhe17/pythia-clone
pytorch
GitHub 中提及
ronghanghu/pythia
pytorch
GitHub 中提及
facebookresearch/pythia
官方
pytorch
GitHub 中提及
gabegrand/adversarial-vqa
pytorch
GitHub 中提及
allenai/pythia
pytorch
GitHub 中提及
jackroos/pythia
pytorch
GitHub 中提及
facebookresearch/mmf
pytorch
GitHub 中提及
zwxalgorithm/pythia
pytorch
GitHub 中提及
ZephyrZhuQi/ssbaseline
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-a-okvqa | Pythia | DA VQA Score: 21.9 MC Accuracy: 40.1 |