4 个月前

多模态Transformer网络在端到端视频对话系统中的应用

多模态Transformer网络在端到端视频对话系统中的应用

摘要

开发基于视频的对话系统(Video-Grounded Dialogue Systems, VGDS),即根据给定视频的视觉和音频方面进行对话,比传统的基于图像或文本的对话系统更具挑战性,原因在于:(1) 视频的特征空间跨越多个画面帧,难以获取语义信息;(2) 对话代理必须感知并处理来自不同模态的信息(如音频、视频、字幕等),以获得全面的理解。现有的大多数研究工作主要基于循环神经网络(RNN)和序列到序列架构,这些方法在捕捉复杂长期依赖关系(如视频中的依赖关系)方面效果不佳。为了解决这一问题,我们提出了一种多模态变压器网络(Multimodal Transformer Networks, MTN)来对视频进行编码,并整合来自不同模态的信息。此外,我们通过自编码器提出了查询感知注意力机制,以从非文本模态中提取查询感知特征。我们还开发了一种训练程序,模拟逐词解码过程,以提高推理过程中生成响应的质量。我们在第七届对话系统技术挑战赛(Dialogue System Technology Challenge 7, DSTC7)上取得了最先进的性能。我们的模型还适用于另一项多模态视觉基础对话任务,并获得了令人鼓舞的结果。我们使用PyTorch实现了这些模型,并将代码发布在https://github.com/henryhungle/MTN。

代码仓库

henryhungle/MTN
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
dialogue-state-tracking-on-simmc2-0MTN
Act F1: 93.4
Slot F1: 76.7
response-generation-on-simmc2-0MTN
BLEU: 21.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多模态Transformer网络在端到端视频对话系统中的应用 | 论文 | HyperAI超神经