8 个月前

多任务学习

计算机视觉

Xin Chen Ben Kang Jiawen Zhu Dong Wang Houwen Peng Huchuan Lu

摘要

本文介绍了一种新的基于RGB和多模态的目标跟踪序列到序列学习框架。首先，我们提出了SeqTrack用于基于RGB的跟踪。该方法将视觉跟踪视为一个序列生成任务，以自回归的方式预测目标边界框。这与以往依赖于复杂头部网络设计（如分类头和回归头）的跟踪器不同。SeqTrack采用了基本的编码器-解码器Transformer架构。编码器利用双向Transformer进行特征提取，而解码器则通过因果Transformer自回归地生成边界框序列。损失函数为简单的交叉熵损失。其次，我们介绍了SeqTrackv2，这是一种统一的多模态跟踪任务的序列到序列框架。在SeqTrack的基础上，SeqTrackv2集成了一个统一的辅助模态接口和一组任务提示标记（task-prompt tokens），以指定不同的任务。这使得它能够使用统一的模型和参数集来处理多模态跟踪任务。这种序列学习范式不仅简化了跟踪框架，还在涵盖五个单模态和多模态跟踪任务的14个具有挑战性的基准测试中展示了优越的性能。代码和模型可在https://github.com/chenxin-dlut/SeqTrackv2 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多任务学习

计算机视觉

Xin Chen Ben Kang Jiawen Zhu Dong Wang Houwen Peng Huchuan Lu

摘要

本文介绍了一种新的基于RGB和多模态的目标跟踪序列到序列学习框架。首先，我们提出了SeqTrack用于基于RGB的跟踪。该方法将视觉跟踪视为一个序列生成任务，以自回归的方式预测目标边界框。这与以往依赖于复杂头部网络设计（如分类头和回归头）的跟踪器不同。SeqTrack采用了基本的编码器-解码器Transformer架构。编码器利用双向Transformer进行特征提取，而解码器则通过因果Transformer自回归地生成边界框序列。损失函数为简单的交叉熵损失。其次，我们介绍了SeqTrackv2，这是一种统一的多模态跟踪任务的序列到序列框架。在SeqTrack的基础上，SeqTrackv2集成了一个统一的辅助模态接口和一组任务提示标记（task-prompt tokens），以指定不同的任务。这使得它能够使用统一的模型和参数集来处理多模态跟踪任务。这种序列学习范式不仅简化了跟踪框架，还在涵盖五个单模态和多模态跟踪任务的14个具有挑战性的基准测试中展示了优越的性能。代码和模型可在https://github.com/chenxin-dlut/SeqTrackv2 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供