6 个月前

摘要

如今，三维（3D）软件已能够生成高度逼真的图像，其视觉效果几乎与真实图像难以区分。这一进展引发了一个关键问题：能否利用3D渲染数据来增强真实图像数据集？本文对此进行了探讨。我们证明了3D渲染数据——特别是基于程序化生成（procedural）的数据——在调整图像数据集中偏差方面的有效性。通过对动物图像进行误差分析，我们发现某些动物品种的误分类问题在很大程度上源于数据本身不足。为此，我们生成了这些分类表现较差品种的程序化图像，并在此基础上对模型进行进一步训练，结果表明，该模型在真实数据上的分类性能显著提升，尤其针对原本表现不佳的品种。我们认为，这一方法可广泛应用于提升各类代表性不足群体的视觉数据，例如罕见疾病图像、或存在潜在数据偏差的场景，从而有效提高模型的准确性与公平性。实验结果表明，经程序化数据增强后学习到的视觉表征，其性能可与直接从真实数据中学习的表征相媲美，甚至在某些情况下更优。然而，要实现优异性能，必须在3D程序化数据的生成过程中保持高度严谨性。我们视3D图像数据集为真实数据集的一种压缩且结构化的复制品。展望未来，随着程序化数据的不断增长，真实数据集可能变得日益庞大、难以管理、缺失严重或因隐私限制而无法获取。本文提出了一系列应对这一未来场景中视觉表征学习挑战的技术路径，为构建更具鲁棒性与可扩展性的视觉学习系统提供了新思路。

源 PDF