8 个月前

计算机视觉

计算机视觉

Dongho Lee Jongseo Lee Jinwoo Choi

摘要

识别视频中的人类行为需要空间和时间上的理解。现有的大多数行为识别模型在空间和时间理解上缺乏平衡。本文提出了一种新颖的双流架构，称为时空交叉注意力（Cross-Attention in Space and Time, CAST），该架构仅使用RGB输入即可实现对视频的平衡时空理解。我们提出的瓶颈交叉注意力机制使空间和时间专家模型能够交换信息并进行协同预测，从而提高了性能。我们在具有不同特性的公共基准数据集上进行了广泛的实验验证，包括EPIC-KITCHENS-100、Something-Something-V2和Kinetics-400。实验结果表明，我们的方法在这几个数据集上均表现出优异的性能，而现有方法的性能则会因数据集特性不同而有所波动。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Dongho Lee Jongseo Lee Jinwoo Choi

摘要

识别视频中的人类行为需要空间和时间上的理解。现有的大多数行为识别模型在空间和时间理解上缺乏平衡。本文提出了一种新颖的双流架构，称为时空交叉注意力（Cross-Attention in Space and Time, CAST），该架构仅使用RGB输入即可实现对视频的平衡时空理解。我们提出的瓶颈交叉注意力机制使空间和时间专家模型能够交换信息并进行协同预测，从而提高了性能。我们在具有不同特性的公共基准数据集上进行了广泛的实验验证，包括EPIC-KITCHENS-100、Something-Something-V2和Kinetics-400。实验结果表明，我们的方法在这几个数据集上均表现出优异的性能，而现有方法的性能则会因数据集特性不同而有所波动。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供