
摘要
在工业界深度学习应用中,我们手动标注的数据中存在一定程度的噪声数据。为了解决这一问题并使开发数据集的得分超过90分,我们提出了一种简单的方法来识别噪声数据,并通过人工重新标注这些噪声数据,同时以模型预测结果作为参考。本文阐述了我们的方法适用于广泛的深度学习任务,包括分类、序列标记、目标检测、序列生成和点击率预测。开发数据集的评估结果和人工评估结果验证了我们的方法的有效性。
代码仓库
guotong1988/Automatic-Label-Error-Correction
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| label-error-detection-on-trec-6 | github.com/guotong1988/Automatic-Label-Error-Correction | Accuracy: 99.0 |
| text-classification-on-trec-6 | Automatic Label Error Correction | Error: 0.40 |