3 个月前

用于情境化对话智能体的多模态上下文嵌入学习

用于情境化对话智能体的多模态上下文嵌入学习

摘要

情境化交互式多模态对话(SIMMC)2.0旨在构建能够处理复杂多模态输入的虚拟购物助手,即同时理解物体的视觉外观与用户的语言表达。该任务包含四个子任务:多模态消歧(MM-Disamb)、多模态指代消解(MM-Coref)、多模态对话状态追踪(MM-DST)以及响应检索与生成。尽管许多面向任务的对话系统通常分别处理各个子任务,本文提出一种联合学习的多模态编码器-解码器架构,能够融合视觉输入,并在单一模型中同步完成全部四项任务,从而提升整体效率。该方法在第十届对话系统技术挑战赛(DSTC10)中,凭借单一统一模型在MM-Coref与响应检索子任务中夺得冠军,并在其余两个子任务中获得提名亚军,为多模态任务导向对话系统这一新兴领域设立了新的基准。

基准测试

基准方法指标
dialogue-state-tracking-on-simmc2-0BART-base
Act F1: 95.2
Slot F1: 82.0
dialogue-state-tracking-on-simmc2-0BART-large
Act F1: 96.3
Slot F1: 88.3
response-generation-on-simmc2-0BART-large
BLEU: 33.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于情境化对话智能体的多模态上下文嵌入学习 | 论文 | HyperAI超神经