Viorica PătrăuceanLucas SmairaAnkush GuptaAdrià Recasens ContinenteLarisa MarkeevaDylan BanarseSkanda KoppulaJoseph HeywardMateusz MalinowskiYi YangCarl DoerschTatiana MatejovicovaYury SulskyAntoine MiechAlex FrechetteHanna KlimczakRaphael KosterJunlin ZhangStephanie WinklerYusuf AytarSimon OsinderoDima DamenAndrew ZissermanJoão Carreira

摘要
我们提出了一种新型多模态视频基准测试——“感知测试”(Perception Test),用于评估预训练多模态模型(如 Flamingo、SeViLA 或 GPT-4)的感知与推理能力。相较于现有主要聚焦于计算任务(如分类、检测或跟踪)的基准,感知测试将重点放在跨视频、音频与文本模态的多种感知能力(记忆、抽象、物理理解、语义理解)以及多种推理类型(描述性、解释性、预测性、反事实推理)上,旨在提供一种全面且高效的评估工具。该基准测试在零样本(zero-shot)、少样本(few-shot)或有限微调的设定下,评估预训练模型的迁移能力。为此,感知测试构建了包含11,600段真实世界视频的数据集,平均时长约23秒,内容涵盖具有感知趣味性的场景,由全球约100名参与者拍摄录制。所有视频均进行了密集标注,包含六类标签:多项选择题与基于视频的问答、物体与关键点轨迹、时间动作片段及声音片段,支持语言与非语言双重评估。该基准的微调集与验证集已公开发布(采用 CC-BY 许可协议),同时提供一个包含保留测试集的挑战服务器,供模型性能评估。与当前最先进的视频问答模型相比,人类基准表现显著更优(人类准确率91.4% vs 模型最高46.2%),表明在多模态视频理解方面仍存在巨大的提升空间。数据集、基线代码及挑战服务器已开放获取,详见:https://github.com/deepmind/perception_test
代码仓库
deepmind/perception_test
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-tracking-on-perception-test | Siam-FC | Average IOU: 0.66 |
| point-tracking-on-perception-test | Static Baseline | Average Jaccard: 0.36 |
| video-question-answering-on-perception-test | Flamingo | Accuracy (Top-1): 0.46 |