4 个月前

利用测试无关的长尾识别中的层次标签分布变化

利用测试无关的长尾识别中的层次标签分布变化

摘要

本文探讨了测试无关的长尾识别问题,这是一个具有挑战性的长尾任务,其中测试标签分布未知且可能任意不平衡。我们认为这些分布的变化可以分层次地分解为全局和局部两个层面。全局变化反映了广泛的多样性,而局部变化通常源于较为温和的变动,往往集中在某个特定的邻域内。传统方法主要采用专家混合(Mixture-of-Expert, MoE)策略,针对少数几个固定的测试标签分布,这些分布表现出显著的全局变化。然而,局部变化却被忽视了。为了解决这一问题,我们提出了一种新的MoE策略——$\mathsf{DirMixE}$,该策略将专家分配到标签分布的不同狄利克雷元分布(Dirichlet meta-distributions),每个元分布都针对局部变化的一个特定方面。此外,这些狄利克雷元分布之间的多样性也内在地捕捉到了全局变化。这种双层方法还导致了一个更加稳定的优化目标函数,使我们能够更好地采样不同的测试分布以量化性能结果的均值和方差。理论上,我们证明了所提出的优化目标通过基于方差的正则化增强了泛化能力。多个基准实验全面验证了$\mathsf{DirMixE}$的有效性。代码可在\url{https://github.com/scongl/DirMixE}获取。

代码仓库

scongl/dirmixe
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
long-tail-learning-on-cifar-10-lt-r-100DirMixE
Error Rate: 16.74
long-tail-learning-on-cifar-100-lt-r-100DirMixE
Error Rate: 51.62
long-tail-learning-on-imagenet-ltDirMixE(ResNeXt-50)
Top-1 Accuracy: 58.61
long-tail-learning-on-inaturalist-2018DirMixE
Top-1 Accuracy: 73.21%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用测试无关的长尾识别中的层次标签分布变化 | 论文 | HyperAI超神经