6 个月前

计算机视觉

计算机视觉

Rohit Girdhar Kristen Grauman

摘要

我们提出了一种名为前瞻性视频变换器（Anticipative Video Transformer, AVT）的端到端注意力机制视频建模架构，该架构通过关注先前观测到的视频内容，实现对未来动作的预测。该模型在训练过程中联合优化两项任务：一是预测视频序列中的下一个动作，二是学习能够预测后续帧特征的帧特征编码器。相较于现有的时序聚合策略，AVT兼具两个优势：既能保持已观测动作的时序连续性，又能有效捕捉长距离依赖关系——这两点对于动作预测任务至关重要。通过大量实验验证，AVT在四个主流动作预测基准数据集上均取得了当前最优的性能表现，包括EpicKitchens-55、EpicKitchens-100、EGTEA Gaze+和50-Salads；并在EpicKitchens-100 CVPR'21挑战赛中荣获第一名。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Rohit Girdhar Kristen Grauman

摘要

我们提出了一种名为前瞻性视频变换器（Anticipative Video Transformer, AVT）的端到端注意力机制视频建模架构，该架构通过关注先前观测到的视频内容，实现对未来动作的预测。该模型在训练过程中联合优化两项任务：一是预测视频序列中的下一个动作，二是学习能够预测后续帧特征的帧特征编码器。相较于现有的时序聚合策略，AVT兼具两个优势：既能保持已观测动作的时序连续性，又能有效捕捉长距离依赖关系——这两点对于动作预测任务至关重要。通过大量实验验证，AVT在四个主流动作预测基准数据集上均取得了当前最优的性能表现，包括EpicKitchens-55、EpicKitchens-100、EGTEA Gaze+和50-Salads；并在EpicKitchens-100 CVPR'21挑战赛中荣获第一名。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供