3 个月前

视觉对话中的MRR与NDCG模型集成

视觉对话中的MRR与NDCG模型集成

摘要

评估一个能够以人类语言进行对话并理解视觉内容的AI代理极具挑战性。生成类指标(如BLEU分数)更注重语法正确性而非语义准确性,因此通常采用判别式方法,即让代理对一组候选答案进行排序。平均倒数排名(Mean Reciprocal Rank, MRR)通过考虑单个人类标准答案的排名来评估模型性能。然而,这种方法带来了新的挑战:答案的模糊性与同义性问题,例如语义等价(如“yeah”与“yes”)。为应对这一问题,研究者采用归一化折损累计增益(Normalized Discounted Cumulative Gain, NDCG)指标,通过密集标注的方式捕捉所有正确答案的相关性。但NDCG指标倾向于偏好通常适用但不确定的回答,例如“我不知道”。因此,设计一个在MRR与NDCG两项指标上均表现优异的模型极具难度。理想情况下,AI代理应能给出类人的自然回答,并能够准确验证任何回答的正确性。为解决这一难题,本文提出一种两阶段非参数化排序方法,能够有效融合表现优异的MRR模型与NDCG模型。实验结果表明,该方法在保持接近当前最优MRR性能(70.41% vs. 71.24%)的同时,实现了当前最优的NDCG性能(72.16% vs. 75.35%)。此外,该方法在2020年视觉对话(Visual Dialog 2020)挑战赛中获得冠军。相关源代码已公开,地址为:https://github.com/idansc/mrr-ndcg。

代码仓库

idansc/mrr-ndcg
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-dialog-on-visdial-v10-test-stdTwo-Step
MRR: 0.7041
Mean Rank: 3.66
NDCG: 72.16
R@1: 58.18
R@10: 90.83
R@5: 83.85
visual-dialog-on-visdial-v10-test-std5xFGA + LS*+
MRR: 0.7124
Mean Rank: 2.96
R@1: 58.28
R@10: 94.45
R@5: 87.55
visual-dialog-on-visdial-v10-test-std5xFGA + LS
NDCG: 64.04
visual-dialog-on-visual-dialog-v1-0-test-std2 Step: Factor Graph Attention + VD-Bert
MRR (x 100): 69.92
Mean: 3.84
NDCG (x 100): 72.83
R@1: 58.3
R@10: 89.6
R@5: 81.55

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉对话中的MRR与NDCG模型集成 | 论文 | HyperAI超神经