
摘要
近年来,除个别例外情况外,计算机视觉领域的趋势表现为:在模型复杂度显著增加的情况下,性能提升却十分有限。为扭转这一趋势,本文提出一种新方法,在不增加模型复杂度的前提下,有效提升图像分类性能。为此,我们重新审视了集成学习(ensembling)这一强大技术。尽管集成方法具有优异的性能潜力,但由于其本身结构较为复杂且训练耗时较长,常因实际应用中的可行性问题而未被充分使用。为此,我们通过一项特定的设计选择,使集成方法具备了更高的实用价值。具体而言,我们首先在数据的互不重叠子集上分别训练两个端到端的 EfficientNet-B0 模型(该架构被广泛认为在图像分类任务中具有最佳的准确率与复杂度权衡)。随后,我们引入一个可训练的组合层,并通过微调实现高效的自适应集成。该方法在多个主流基准数据集上均取得了显著性能提升,平均准确率超越当前最先进水平达 0.5%。与此同时,模型参数量减少 5 至 60 倍,浮点运算量(FLOPS)降低 10 至 100 倍,充分实现了性能提升与复杂度控制的双重优化。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-cifar-10 | efficient adaptive ensembling | Percentage error: 0.388 |
| image-classification-on-cifar-100 | efficient adaptive ensembling | Percentage error: 3.192 |
| image-classification-on-cinic-10 | efficient adaptive ensembling | Accuracy: 95.064 |
| image-classification-on-flower102 | efficient adaptive ensembling | Accuracy: 99.847 |
| image-classification-on-pets-sam | efficient adaptive ensembling | Accuracy: 98.22 |
| image-classification-on-stanford-cars | efficient adaptive ensembling | Accuracy: 96.879 |