7 个月前

摘要

MNIST数据集已成为学习、分类和计算机视觉系统的一个标准基准。其广泛采用的原因在于任务的可理解性和直观性、相对较小的数据量和存储需求以及数据库本身的易用性和可访问性。MNIST数据库源自一个更大的数据集，即NIST特殊数据库19（NIST Special Database 19），该数据集包含手写数字、大写字母和小写字母。本文介绍了一种基于完整NIST数据集的变体，我们称之为扩展MNIST（Extended MNIST，简称EMNIST），该变体采用了与创建MNIST数据集相同的转换方法。结果生成了一系列更具挑战性的分类任务数据集，这些任务涉及字母和数字，并且保留了与原始MNIST任务相同的数据结构和参数，从而可以直接兼容所有现有的分类器和系统。文中还展示了基准测试结果，并通过比较转换后的NIST数字与MNIST数字的分类结果来验证转换过程的有效性。

源 PDF