4 个月前

让历史发挥作用:面向历史优势的序列训练在视觉对话中的应用

让历史发挥作用:面向历史优势的序列训练在视觉对话中的应用

摘要

我们研究了视觉对话中的多轮响应生成问题,其中响应是根据基于图像的对话历史生成的。给定一个三元组:一张图像、问答历史以及当前的问题,现有的所有方法都遵循监督学习范式下的编解码(即编码器-解码器)模式:多模态编码器将三元组编码为特征向量,然后将其输入到解码器中生成当前答案,该过程由真实标签进行监督。然而,这种传统的监督学习并未考虑不完美历史的影响,这违背了视觉对话的对话性质,从而使得编解码器更倾向于学习历史偏差而非上下文推理。为此,受强化学习中演员-评论家策略梯度的启发,我们提出了一种新的训练范式——历史优势序列训练(HAST)。具体而言,我们在历史中故意引入错误答案,以获得不利的评论,并观察历史错误如何影响编解码器未来的行为。这一影响通过计算“历史优势”来量化,“历史优势”是指从真实历史的真实奖励中减去不利评论所得到的值。此外,为了使编解码器对历史更加敏感,我们提出了一种新的注意力网络——历史感知协同注意网络(HACAN),该网络可以通过HAST有效训练。在三个基准数据集上的实验结果表明:VisDial v0.9&v1.0 和 GuessWhat?! 上提出的HAST策略始终优于最先进的监督学习方法。

基准测试

基准方法指标
visual-dialog-on-visdial-v09-valHACAN
MRR: 0.6792
Mean Rank: 3.97
R@1: 54.76
R@10: 90.68
R@5: 83.03
visual-dialog-on-visual-dialog-v1-0-test-stdHACAN
MRR (x 100): 64.22
Mean: 4.20
NDCG (x 100): 57.17
R@1: 50.88
R@10: 89.45
R@5: 80.63

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
让历史发挥作用:面向历史优势的序列训练在视觉对话中的应用 | 论文 | HyperAI超神经