摘要

我们提出了一种新型多模态视频基准测试——“感知测试”（Perception Test），用于评估预训练多模态模型（如 Flamingo、SeViLA 或 GPT-4）的感知与推理能力。相较于现有主要聚焦于计算任务（如分类、检测或跟踪）的基准，感知测试将重点放在跨视频、音频与文本模态的多种感知能力（记忆、抽象、物理理解、语义理解）以及多种推理类型（描述性、解释性、预测性、反事实推理）上，旨在提供一种全面且高效的评估工具。该基准测试在零样本（zero-shot）、少样本（few-shot）或有限微调的设定下，评估预训练模型的迁移能力。为此，感知测试构建了包含11,600段真实世界视频的数据集，平均时长约23秒，内容涵盖具有感知趣味性的场景，由全球约100名参与者拍摄录制。所有视频均进行了密集标注，包含六类标签：多项选择题与基于视频的问答、物体与关键点轨迹、时间动作片段及声音片段，支持语言与非语言双重评估。该基准的微调集与验证集已公开发布（采用 CC-BY 许可协议），同时提供一个包含保留测试集的挑战服务器，供模型性能评估。与当前最先进的视频问答模型相比，人类基准表现显著更优（人类准确率91.4% vs 模型最高46.2%），表明在多模态视频理解方面仍存在巨大的提升空间。数据集、基线代码及挑战服务器已开放获取，详见：https://github.com/deepmind/perception_test

源 PDF