3 个月前

稀疏混合专家模型是具备领域泛化能力的学习者

稀疏混合专家模型是具备领域泛化能力的学习者

摘要

人类视觉感知能够轻松泛化到分布外(out-of-distribution)的视觉数据,而这一能力远超当前主流机器学习模型的表现。领域泛化(Domain Generalization, DG)旨在缩小这一差距,现有DG方法主要聚焦于损失函数的设计。本文提出探索一条正交方向——即主干网络架构的设计。这一思路源于一个经验发现:基于Transformer的模型在经验风险最小化(Empirical Risk Minimization, ERM)框架下训练时,在多个DG数据集上表现优于采用当前最先进(State-of-the-Art, SOTA)DG算法的CNN模型。为此,我们构建了一个形式化框架,通过分析网络架构与数据集内在相关性之间的对齐程度,来刻画模型对分布偏移的鲁棒性。基于该分析,我们提出了一种基于视觉Transformer的新型DG模型——可泛化混合专家模型(Generalizable Mixture-of-Experts, GMoE)。在DomainBed基准上的大量实验表明,仅使用ERM训练的GMoE在性能上显著超越现有SOTA DG基线方法。此外,GMoE与现有DG方法具有良好的互补性,当结合DG算法进行训练时,其性能进一步得到显著提升。

代码仓库

luodian/sf-moe-dg
官方
pytorch
GitHub 中提及
KU-CVLAB/MoA
pytorch
GitHub 中提及

基准测试

基准方法指标
domain-generalization-on-domainnetHybrid-SF-MoE
Average Accuracy: 52.0
domain-generalization-on-domainnetGMoE-S/16
Average Accuracy: 48.7
domain-generalization-on-office-homeGMoE-S/16
Average Accuracy: 74.2
domain-generalization-on-pacs-2GMoE-S/16
Average Accuracy: 88.1
domain-generalization-on-terraincognitaGMoE-S/16
Average Accuracy: 48.5
domain-generalization-on-vlcsGMoE-S/16
Average Accuracy: 80.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
稀疏混合专家模型是具备领域泛化能力的学习者 | 论文 | HyperAI超神经