HyperAIHyperAI

Command Palette

Search for a command to run...

深度变分结构化强化学习在视觉关系和属性检测中的应用

Xiaodan Liang Lisa Lee Eric P. Xing

摘要

尽管在图像分类和检测等视觉感知任务上取得了进展,计算机仍然难以理解场景中物体之间的整体相互依赖关系,例如物体之间的关系或其属性。现有的方法通常忽略捕捉不同物体实例之间交互作用的全局上下文线索,只能通过为所有可能的关系穷尽训练单独的检测器来识别少数几种类型。为了捕捉这种全局相互依赖关系,我们提出了一种深度变结构强化学习(VRL)框架,以顺序方式发现整个图像中的物体关系和属性。首先,利用语言先验构建一个有向语义动作图,以提供物体类别、谓词和属性之间语义相关性的丰富而紧凑的表示。接下来,我们在动作图上进行变结构遍历,在每个步骤中根据当前状态和历史动作构建一个小的、自适应的动作集。特别是,我们使用一种模糊意识的物体挖掘方案来解决物体检测器无法区分的物体类别之间的语义模糊问题。然后,我们使用深度强化学习(RL)框架进行顺序预测,在状态向量中结合全局上下文线索和先前提取短语的语义嵌入。我们在Visual Relationship Detection(VRD)数据集和大规模Visual Genome数据集上的实验验证了VRL的优势,该方法能够在涉及数千种关系和属性类型的数据库上实现显著更好的检测结果。此外,我们还展示了VRL能够通过在共享图节点上学到的相关性来预测未见过的类型。关键词:视觉感知任务、图像分类、图像检测、全局上下文线索、深度变结构强化学习(VRL)、有向语义动作图、谓词、属性、模糊意识的物体挖掘方案、深度强化学习(RL)、状态向量、Visual Relationship Detection(VRD)数据集、Visual Genome数据集


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供