3 个月前

衡量组合泛化:一种基于真实数据的综合方法

衡量组合泛化:一种基于真实数据的综合方法

摘要

当前最先进的机器学习方法在组合泛化(compositional generalization)方面表现出显著局限性。与此同时,缺乏能够全面衡量这一能力的现实基准数据集,这使得发现并评估相关改进变得极为困难。为此,我们提出一种新颖的方法,通过在保证训练集与测试集之间原子成分差异(atom divergence)较小的前提下,最大化复合成分差异(compound divergence),从而系统性地构建此类基准。我们对该方法与其他构建组合泛化基准的现有方法进行了定量比较。基于该方法,我们构建了一个大规模且具有现实意义的自然语言问答数据集,并利用该数据集分析了三种机器学习架构的组合泛化能力。研究发现,这些模型均无法实现有效的组合泛化,且复合成分差异与模型准确率之间呈现出令人惊讶的强烈负相关关系。此外,我们还展示了如何将该方法应用于现有SCAN数据集之上,构建新的组合性基准,进一步验证了上述结论。

基准测试

基准方法指标
semantic-parsing-on-cfqUniversal Transformer
Exact Match: 18.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
衡量组合泛化:一种基于真实数据的综合方法 | 论文 | HyperAI超神经