6 个月前

计算机视觉

Thao Minh Le Vuong Le Svetha Venkatesh Truyen Tran

摘要

视频问答（VideoQA）任务具有挑战性，因其需要建模动态视觉特征与远距离关联关系，并将这些信息与语言概念进行关联。为此，我们提出一种通用且可复用的神经单元——条件关系网络（Conditional Relation Network, CRN），作为构建复杂视频表示与推理结构的基本模块。CRN接收一组张量对象和一个条件特征作为输入，输出一组编码后的对象。通过简单地复制、重组与堆叠这些可复用单元，即可灵活构建适用于多种模态与上下文信息的模型结构。该设计支持高阶关系建模与多步推理能力。在视频问答任务中，所提出的架构为一个CRN层级结构，其不同分支代表子视频或片段，且均以同一问题作为上下文条件。在多个知名数据集上的实验评估取得了新的最先进（SoTA）性能，充分证明了构建通用推理单元在复杂领域（如视频问答）中的显著价值。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Thao Minh Le Vuong Le Svetha Venkatesh Truyen Tran

摘要

视频问答（VideoQA）任务具有挑战性，因其需要建模动态视觉特征与远距离关联关系，并将这些信息与语言概念进行关联。为此，我们提出一种通用且可复用的神经单元——条件关系网络（Conditional Relation Network, CRN），作为构建复杂视频表示与推理结构的基本模块。CRN接收一组张量对象和一个条件特征作为输入，输出一组编码后的对象。通过简单地复制、重组与堆叠这些可复用单元，即可灵活构建适用于多种模态与上下文信息的模型结构。该设计支持高阶关系建模与多步推理能力。在视频问答任务中，所提出的架构为一个CRN层级结构，其不同分支代表子视频或片段，且均以同一问题作为上下文条件。在多个知名数据集上的实验评估取得了新的最先进（SoTA）性能，充分证明了构建通用推理单元在复杂领域（如视频问答）中的显著价值。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供