3 个月前

感知测试:多模态视频模型的诊断性基准

感知测试:多模态视频模型的诊断性基准

摘要

我们提出了一种新型多模态视频基准测试——“感知测试”(Perception Test),用于评估预训练多模态模型(如 Flamingo、SeViLA 或 GPT-4)的感知与推理能力。相较于现有主要聚焦于计算任务(如分类、检测或跟踪)的基准,感知测试将重点放在跨视频、音频与文本模态的多种感知能力(记忆、抽象、物理理解、语义理解)以及多种推理类型(描述性、解释性、预测性、反事实推理)上,旨在提供一种全面且高效的评估工具。该基准测试在零样本(zero-shot)、少样本(few-shot)或有限微调的设定下,评估预训练模型的迁移能力。为此,感知测试构建了包含11,600段真实世界视频的数据集,平均时长约23秒,内容涵盖具有感知趣味性的场景,由全球约100名参与者拍摄录制。所有视频均进行了密集标注,包含六类标签:多项选择题与基于视频的问答、物体与关键点轨迹、时间动作片段及声音片段,支持语言与非语言双重评估。该基准的微调集与验证集已公开发布(采用 CC-BY 许可协议),同时提供一个包含保留测试集的挑战服务器,供模型性能评估。与当前最先进的视频问答模型相比,人类基准表现显著更优(人类准确率91.4% vs 模型最高46.2%),表明在多模态视频理解方面仍存在巨大的提升空间。数据集、基线代码及挑战服务器已开放获取,详见:https://github.com/deepmind/perception_test

代码仓库

deepmind/perception_test
官方
GitHub 中提及

基准测试

基准方法指标
object-tracking-on-perception-testSiam-FC
Average IOU: 0.66
point-tracking-on-perception-testStatic Baseline
Average Jaccard: 0.36
video-question-answering-on-perception-testFlamingo
Accuracy (Top-1): 0.46

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
感知测试:多模态视频模型的诊断性基准 | 论文 | HyperAI超神经