8 个月前

计算机视觉

Shuhuai Ren Sishuo Chen Shicheng Li Xu Sun Lu Hou

摘要

大规模视频-语言预训练在推进视频-语言理解任务方面取得了显著进展。然而，视频编码的沉重计算负担仍然是一个严峻的效率瓶颈，尤其是在处理长视频时。这些长视频由于其固有的三维特性和时空冗余，包含大量的视觉标记，使得捕捉复杂的时空关系变得非常困难。为了解决这一问题，我们提出了一种高效的方法，称为时间-空间标记聚合（TEmporal-Spatial Token Aggregation, TESTA）。TESTA通过自适应地聚合相似帧以及每帧内的相似补丁来压缩视频语义。TESTA可以减少75%的视觉标记数量，从而加速视频编码。基于TESTA，我们引入了一个预训练的视频-语言模型，在每个视频编码器块中配备了分时段空标记聚合模块。我们在五个数据集上对段落到视频检索和长形式VideoQA任务进行了评估。实验结果表明，TESTA将计算效率提高了1.7倍，并且通过扩展处理更长输入帧的能力实现了显著的性能提升，例如在QuerYD数据集上R@1指标提升了13.7%，在Condensed Movie数据集上R@1指标提升了6.5%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Shuhuai Ren Sishuo Chen Shicheng Li Xu Sun Lu Hou

摘要

大规模视频-语言预训练在推进视频-语言理解任务方面取得了显著进展。然而，视频编码的沉重计算负担仍然是一个严峻的效率瓶颈，尤其是在处理长视频时。这些长视频由于其固有的三维特性和时空冗余，包含大量的视觉标记，使得捕捉复杂的时空关系变得非常困难。为了解决这一问题，我们提出了一种高效的方法，称为时间-空间标记聚合（TEmporal-Spatial Token Aggregation, TESTA）。TESTA通过自适应地聚合相似帧以及每帧内的相似补丁来压缩视频语义。TESTA可以减少75%的视觉标记数量，从而加速视频编码。基于TESTA，我们引入了一个预训练的视频-语言模型，在每个视频编码器块中配备了分时段空标记聚合模块。我们在五个数据集上对段落到视频检索和长形式VideoQA任务进行了评估。实验结果表明，TESTA将计算效率提高了1.7倍，并且通过扩展处理更长输入帧的能力实现了显著的性能提升，例如在QuerYD数据集上R@1指标提升了13.7%，在Condensed Movie数据集上R@1指标提升了6.5%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供