
摘要
半监督学习已被证明是一种强大的范式,能够利用未标记数据来减少对大规模标记数据集的依赖。在本研究中,我们将当前主流的半监督学习方法统一起来,提出了一种新的算法——MixMatch,该算法通过为数据增强后的未标记样本预测低熵标签,并使用MixUp技术混合标记和未标记数据来实现其目标。我们展示了MixMatch在多个数据集和不同数量的标记数据上取得了显著优于现有方法的结果。例如,在CIFAR-10数据集中仅使用250个标签时,我们的错误率降低了4倍(从38%降至11%),而在STL-10数据集上则降低了2倍。此外,我们还演示了如何通过MixMatch实现差分隐私中的精度与隐私保护之间的显著改进。最后,我们进行了消融实验,以分析MixMatch成功的关键因素。注释:- 半监督学习(Semi-supervised learning):一种机器学习方法,结合了少量有标签的数据和大量无标签的数据进行训练。- 低熵标签(low-entropy labels):指具有较高置信度的预测标签。- MixUp:一种数据增强技术,通过对输入样本及其对应标签进行线性插值来生成新的训练样本。- 差分隐私(Differential privacy):一种隐私保护机制,旨在确保数据分析结果不会泄露任何个体的具体信息。- 消融实验(Ablation study):通过移除模型中的某些组件或特征来评估它们对整体性能的影响。
代码仓库
smkim7-kr/albu-MixMatch-pytorch
pytorch
GitHub 中提及
yuxi120407/semi-supervised_tensorflow2.0
tf
GitHub 中提及
Shubhammawa/MixMatch-Semi-Supervised-Learning
pytorch
GitHub 中提及
google-research/crest
tf
GitHub 中提及
rit-git/Snippext_public
pytorch
GitHub 中提及
viig99/mixmatch-freesound
pytorch
GitHub 中提及
yuxi120407/mixmatch_tensorflow
tf
GitHub 中提及
kevinghst/mixmatch
pytorch
GitHub 中提及
filaPro/visda2019
tf
GitHub 中提及
FelixAbrahamsson/mixmatch-pytorch
pytorch
GitHub 中提及
TianheWu/LGPNet
pytorch
GitHub 中提及
ms903-github/MixMatch-imdb
pytorch
GitHub 中提及
ktran1/Manifold-attack
pytorch
GitHub 中提及
gan3sh500/mixmatch-pytorch
pytorch
GitHub 中提及
atinghosh/mixmatch_pytorch
pytorch
GitHub 中提及
ntozer/mixmatch-tensorflow2.0
tf
GitHub 中提及
tinluu/Self-supervised-CV
pytorch
GitHub 中提及
dhx000/DGM_project
tf
GitHub 中提及
noachr/MixMatch-fastai
pytorch
GitHub 中提及
YU1ut/MixMatch-pytorch
pytorch
GitHub 中提及
uizard-technologies/realmix
tf
GitHub 中提及
dLutscher/MixMatch-TransferLearning
pytorch
GitHub 中提及
Jeffkang-94/pytorch-MixMatch
pytorch
GitHub 中提及
Jeffkang-94/Mixmatch-pytorch-SSL
pytorch
GitHub 中提及
narendoraiswamy/MixMatch-pytorch-demo
pytorch
GitHub 中提及
google-research/mixmatch
官方
tf
GitHub 中提及
perrying/realistic-ssl-evaluation-pytorch
pytorch
GitHub 中提及
fbuchert/mixmatch-pytorch
pytorch
GitHub 中提及
DonghwanKIM0101/CS492I_CV
pytorch
GitHub 中提及
DamianValle/ScarceClassifier
pytorch
GitHub 中提及