3 个月前

基于学习到的物体嵌入的注意力机制实现了复杂的视觉推理

基于学习到的物体嵌入的注意力机制实现了复杂的视觉推理

摘要

神经网络在众多感知任务中取得了显著成功,但在涉及感知与高层推理相结合的任务上却常常表现不佳。对于这些更具挑战性的任务,以往通常采用针对特定任务设计的专用方法(如模块化符号组件、独立的动力学模型或语义解析器),这些方法往往能取得更优的表现。然而,这类专用方法的缺点在于其鲁棒性较差,往往需要根据具体任务进行大量调整甚至重新设计,灵活性不足。 本文提出了一种更为通用的基于神经网络的方法,用于解决动态视觉推理问题。该方法在三个不同领域均取得了当前最优的性能,且在每种情况下均超越了专门针对该任务定制的模块化方法。我们的方法依赖于可学习的以对象为中心的表征、自注意力机制以及自监督的动力学学习,这三者协同作用,共同构成了高性能的基础——缺一不可。 这一组合的成功表明,在涉及时空关系或因果推理的问题中,我们无需在灵活性与性能之间做出权衡。只要在神经网络中引入合适的软先验(soft biases)和学习目标,我们或许能够实现灵活性与高性能的兼得,真正达成“两者兼得”的理想状态。

代码仓库

基准测试

基准方法指标
video-object-tracking-on-caterAloe
L1: 0.44
Top 1 Accuracy: 74.0
Top 5 Accuracy: 94.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于学习到的物体嵌入的注意力机制实现了复杂的视觉推理 | 论文 | HyperAI超神经