
摘要
在机器学习长达数十年的发展历程中,循环神经网络(RNNs)主要应用于序列数据和时间序列分析,通常处理一维信息。即便在少数涉及二维图像的研究中,RNN也仅被用于顺序地学习和生成数据,而非用于图像识别任务。在本研究中,我们提出在设计图像识别模型时,将RNN作为附加层引入。同时,我们构建了端到端的多模型集成方法,通过多个模型协同生成专家级预测结果。此外,我们对训练策略进行了扩展,使得所提出的模型在性能上可与当前领先模型相媲美,甚至在多个具有挑战性的数据集上达到或超越当前最优水平(如SVHN:0.99,Cifar-100:0.9027,Cifar-10:0.9852)。特别地,我们的模型在Surrey数据集上创造了新的纪录(0.949)。本文所提出方法的源代码已公开,可访问:https://github.com/leonlha/e2e-3m 和 http://nguyenhuuphong.me。
代码仓库
leonlha/e2e-3m
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-cifar-10 | E2E-3M | Percentage correct: 98.52 |
| image-classification-on-cifar-100 | E2E-3M | Percentage correct: 90.27 |
| image-classification-on-fashion-mnist | E2E-3M | Percentage error: 4.08 |
| image-classification-on-icassava-19 | E2E-3M | Top-1 Accuracy: 0.9368 |
| image-classification-on-surrey-asl | E2E-3M | Accuracy (%): 94.90 |
| image-classification-on-svhn | E2E-M3 | Percentage error: 1.0 |