6 个月前

计算机视觉

计算机视觉

Yihong Chen Yue Cao Han Hu Liwei Wang

摘要

人类如何在视频片段中识别物体？由于单帧图像质量下降，仅依赖单一图像内部的信息，人们往往难以识别被遮挡的物体。我们认为，人类在视频中识别物体主要依赖两个关键线索：全局语义信息和局部定位信息。近年来，许多方法采用自注意力机制，旨在通过全局语义信息或局部定位信息来增强关键帧的特征表示。本文提出了一种记忆增强的全局-局部聚合（Memory Enhanced Global-Local Aggregation, MEGA）网络，这是首个全面融合全局与局部信息的代表性尝试。此外，得益于一种新颖且精心设计的长程记忆（Long Range Memory, LRM）模块，所提出的MEGA网络使关键帧能够获取远超以往方法的丰富上下文内容。通过融合这两种信息源，我们的方法在ImageNet VID数据集上取得了当前最优的性能表现。代码已开源，地址为：\url{https://github.com/Scalsol/mega.pytorch}。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Yihong Chen Yue Cao Han Hu Liwei Wang

摘要

人类如何在视频片段中识别物体？由于单帧图像质量下降，仅依赖单一图像内部的信息，人们往往难以识别被遮挡的物体。我们认为，人类在视频中识别物体主要依赖两个关键线索：全局语义信息和局部定位信息。近年来，许多方法采用自注意力机制，旨在通过全局语义信息或局部定位信息来增强关键帧的特征表示。本文提出了一种记忆增强的全局-局部聚合（Memory Enhanced Global-Local Aggregation, MEGA）网络，这是首个全面融合全局与局部信息的代表性尝试。此外，得益于一种新颖且精心设计的长程记忆（Long Range Memory, LRM）模块，所提出的MEGA网络使关键帧能够获取远超以往方法的丰富上下文内容。通过融合这两种信息源，我们的方法在ImageNet VID数据集上取得了当前最优的性能表现。代码已开源，地址为：\url{https://github.com/Scalsol/mega.pytorch}。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供