6 个月前

计算机视觉

Xuanjing Huang Qi Zhang Piji Li Zhongyu Wei Ruize Wang

摘要

视觉叙事旨在从图像序列中生成连贯的故事。现有大多数方法倾向于直接使用提取的高层特征来表征图像，这种方式缺乏直观性且难以解释。我们认为，将每张图像转化为基于图的语义表示——即场景图（scene graph），其中显式编码图像中检测到的物体及其相互关系，将有助于更有效地表征和描述图像内容。为此，我们提出了一种新型基于图的视觉叙事架构，通过建模场景图上的两层关系来实现。具体而言，在图像内部层面，我们采用图卷积网络（Graph Convolution Network, GCN）对场景图中物体的局部细粒度区域表示进行增强；为进一步建模图像之间的交互关系，在跨图像层面，引入时间卷积网络（Temporal Convolution Network, TCN）沿时间维度对区域表示进行优化。随后，将具备关系感知能力的表示输入带有注意力机制的门控循环单元（Gated Recurrent Unit, GRU）中，用于生成故事。我们在公开的视觉叙事数据集上进行了实验，自动评估与人工评估结果均表明，所提方法达到了当前最优水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Xuanjing Huang Qi Zhang Piji Li Zhongyu Wei Ruize Wang

摘要

视觉叙事旨在从图像序列中生成连贯的故事。现有大多数方法倾向于直接使用提取的高层特征来表征图像，这种方式缺乏直观性且难以解释。我们认为，将每张图像转化为基于图的语义表示——即场景图（scene graph），其中显式编码图像中检测到的物体及其相互关系，将有助于更有效地表征和描述图像内容。为此，我们提出了一种新型基于图的视觉叙事架构，通过建模场景图上的两层关系来实现。具体而言，在图像内部层面，我们采用图卷积网络（Graph Convolution Network, GCN）对场景图中物体的局部细粒度区域表示进行增强；为进一步建模图像之间的交互关系，在跨图像层面，引入时间卷积网络（Temporal Convolution Network, TCN）沿时间维度对区域表示进行优化。随后，将具备关系感知能力的表示输入带有注意力机制的门控循环单元（Gated Recurrent Unit, GRU）中，用于生成故事。我们在公开的视觉叙事数据集上进行了实验，自动评估与人工评估结果均表明，所提方法达到了当前最优水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

基于场景图的图像流叙事生成 | 论文 | HyperAI超神经