3 个月前

基于人类意图推理的追踪

基于人类意图推理的追踪

摘要

感知建模的进展显著提升了目标跟踪的性能。然而,当前在初始帧中指定目标对象的方法主要依赖于两种方式:一是使用框或掩码模板,二是提供显式的语言描述。这两种方式均较为繁琐,且无法使跟踪器具备自主推理能力。为此,本文提出了一种全新的跟踪任务——指令跟踪(Instruction Tracking),即通过隐式指令来引导跟踪过程,要求跟踪器能够自动在视频帧中完成目标追踪。为实现这一目标,我们探索了将大型视觉-语言模型(Large Vision-Language Model, LVLM)所具备的知识与推理能力融入目标跟踪任务中的可行性。具体而言,本文提出了一种名为 TrackGPT 的跟踪框架,该框架能够执行基于复杂推理的跟踪任务。TrackGPT 首先利用 LVLM 理解跟踪指令,并将目标相关的语义线索压缩为指向性嵌入(referring embeddings)。随后,感知模块基于这些嵌入生成最终的跟踪结果。为评估 TrackGPT 的性能,我们构建了一个名为 InsTrack 的指令跟踪基准数据集,包含超过一千对指令-视频样本,用于指令微调与评估。实验结果表明,TrackGPT 在多个指代视频目标分割(referring video object segmentation)基准上取得了具有竞争力的性能,例如在 Refer-DAVIS 数据集上达到了 66.5 $\mathcal{J}\&\mathcal{F}$ 的新最优成绩。此外,在新的评估协议下,TrackGPT 在指令跟踪任务中也展现出显著优越的性能。相关代码与模型已公开,可访问:https://github.com/jiawen-zhu/TrackGPT。

代码仓库

jiawen-zhu/trackgpt
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
referring-video-object-segmentation-on-revosTrackGPT (LLaVA-13B)
F: 46.8
J: 43.2
Ju0026F: 45.0
R: 12.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于人类意图推理的追踪 | 论文 | HyperAI超神经