6 个月前

摘要

监督式机器学习系统的可靠性依赖于真实标签（ground truth labels）的准确性与可获得性。然而，人工标注过程易受主观误差影响，可能导致标签噪声的产生，从而削弱这些系统在实际应用中的可信度。尽管在训练阶段处理噪声标签是一个重要课题，测试数据的可靠性同样至关重要，直接影响结果评估的可信程度。一种常见的应对策略是重复标注（repeated labeling），即由多位标注员对同一样本进行标注，再通过聚合其标签以获得更接近真实标签的估计值。本文提出一种新颖的定位算法，该算法将成熟的真实标签估计方法有效应用于目标检测与实例分割任务。本方法的核心创新在于，能够将联合的定位与分类任务转化为仅涉及分类的问题，从而使得诸如期望最大化（Expectation-Maximization, EM）或多数投票（Majority Voting, MJV）等技术得以直接应用。尽管本研究的主要目标是为测试数据聚合唯一的真实标签，但实验结果表明，该算法在TexBiG数据集上的训练阶段也表现出优异性能，显著优于采用噪声标签训练以及使用加权框融合（Weighted Boxes Fusion, WBF）进行标签聚合的方法。实验分析表明，重复标注所带来的优势在特定的数据集特征与标注配置下才会显现。关键影响因素主要包括：（1）数据集的复杂程度，（2）标注员之间的一致性水平，以及（3）给定的标注预算约束条件。

源 PDF 查看代码