3 个月前

点跟踪的局部全配对对应关系

点跟踪的局部全配对对应关系

摘要

我们提出 LocoTrack,一种高精度且高效的模型,专为在视频序列中追踪任意点(Tracking Any Point, TAP)的任务而设计。以往的方法通常依赖于局部2D相关图,从查询图像中的一个点建立与目标图像中局部区域的对应关系,但在均质区域或具有重复特征的区域中,此类方法常因匹配歧义而表现不佳。LocoTrack 通过一种新颖的全对对应机制——即局部4D相关性——克服了这一挑战,实现了精确的点对应关系建模。该方法结合双向对应关系与匹配平滑性,显著提升了对歧义情况的鲁棒性。此外,我们引入了一个轻量级相关编码器以提升计算效率,并采用紧凑的Transformer架构来融合长期时序信息。在所有 TAP-Vid 基准测试中,LocoTrack 均取得了前所未有的精度表现,且运行速度接近当前最先进方法的6倍。

代码仓库

ku-cvlab/locotrack
jax
GitHub 中提及
cvlab-kaist/locotrack
官方
jax
GitHub 中提及

基准测试

基准方法指标
point-tracking-on-tap-vid-davisLocoTrack-B
Average Jaccard: 69.4
Average PCK: 81.3
Occlusion Accuracy: 88.6
point-tracking-on-tap-vid-davis-firstLocoTrack-B
Average Jaccard: 64.8
Average PCK: 77.4
Occlusion Accuracy: 86.2
point-tracking-on-tap-vid-kineticsLocoTrack-B
Average Jaccard: 59.1
Average PCK: 72.5
Occlusion Accuracy: 85.7
point-tracking-on-tap-vid-kinetics-firstLocoTrack-B
Average Jaccard: 52.3
Average PCK: 66.4
Occlusion Accuracy: 82.1
point-tracking-on-tap-vid-rgb-stackingLocoTrack-B
Average Jaccard: 70.8
Average PCK: 83.2
Occlusion Accuracy: 84.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
点跟踪的局部全配对对应关系 | 论文 | HyperAI超神经