3 个月前

MixMo:通过深度子网络实现多输入到多输出的混合

MixMo:通过深度子网络实现多输入到多输出的混合

摘要

近期的研究通过在单个基础网络内并行训练多个不同的子网络,实现了“免费集成”(ensembling for free)。其核心训练思想是:每个子网络仅负责对同时输入的多个样本中的某一个进行分类。然而,如何最优地融合这些多输入样本的问题至今尚未得到充分研究。本文提出一种名为 MixMo 的新型通用框架,用于学习多输入多输出的深度子网络。我们的核心动机在于,用更合适的混合机制取代先前方法中隐含的次优加和操作。为此,我们借鉴了在数据增强中表现优异的混合样本策略。实验表明,基于特征空间的二元混合——特别是采用 CutMix 中的矩形补丁进行混合——能够显著提升性能,使子网络更具判别能力且更加多样化。在 CIFAR-100 与 Tiny ImageNet 数据集上的图像分类任务中,我们的方法超越了现有最先进水平。所提出的模型实现简单,显著优于经过数据增强的深度集成模型,同时避免了推理和内存开销。由于我们直接在特征层面操作,并更充分地利用了大模型的表达能力,本工作开辟了一条与以往研究互补的新研究方向。

代码仓库

alexrame/mixmo-pytorch
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-cifar-10WRN-28-10
Percentage correct: 97.73
image-classification-on-cifar-100WRN-28-10 * 3
Percentage correct: 86.81
image-classification-on-cifar-100WRN-28-10
Percentage correct: 85.77
image-classification-on-tiny-imagenet-1PreActResNet-18-3
Validation Acc: 70.24%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MixMo:通过深度子网络实现多输入到多输出的混合 | 论文 | HyperAI超神经