8 个月前

计算机视觉

Joonmyung Choi Sanghyeok Lee Jaewon Chu Minhyuk Choi Hyunwoo J. Kim

摘要

视频变换器（Video Transformers）凭借其卓越的表达能力和灵活性，已成为各种视频下游任务的主要解决方案。然而，由于整个视频帧中存在大量标记（tokens），这些视频变换器面临着沉重的计算成本，这已成为训练模型的主要障碍。此外，与主要内容无关的标记，例如背景区域，会降低模型的泛化性能。为了解决这些问题，我们提出了一种无需额外训练即可合并背景标记的方法——轻量级视频变换器（vid-TLDR），旨在通过合并背景标记来提高视频变换器的效率。在vid-TLDR中，我们引入了一种新颖的方法，仅使用注意力图来捕捉视频中的显著区域。进一步地，我们提出了基于显著性的标记合并策略，通过丢弃背景标记并增强对象得分来实现这一目标。实验结果表明，vid-TLDR显著降低了视频变换器的计算复杂度，并且在性能上与未使用vid-TLDR的基础模型相比具有竞争力。代码可在https://github.com/mlvlab/vid-TLDR 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Joonmyung Choi Sanghyeok Lee Jaewon Chu Minhyuk Choi Hyunwoo J. Kim

摘要

视频变换器（Video Transformers）凭借其卓越的表达能力和灵活性，已成为各种视频下游任务的主要解决方案。然而，由于整个视频帧中存在大量标记（tokens），这些视频变换器面临着沉重的计算成本，这已成为训练模型的主要障碍。此外，与主要内容无关的标记，例如背景区域，会降低模型的泛化性能。为了解决这些问题，我们提出了一种无需额外训练即可合并背景标记的方法——轻量级视频变换器（vid-TLDR），旨在通过合并背景标记来提高视频变换器的效率。在vid-TLDR中，我们引入了一种新颖的方法，仅使用注意力图来捕捉视频中的显著区域。进一步地，我们提出了基于显著性的标记合并策略，通过丢弃背景标记并增强对象得分来实现这一目标。实验结果表明，vid-TLDR显著降低了视频变换器的计算复杂度，并且在性能上与未使用vid-TLDR的基础模型相比具有竞争力。代码可在https://github.com/mlvlab/vid-TLDR 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供