3 个月前

端到端弱监督

端到端弱监督

摘要

通过整合多种弱监督(Weak Supervision, WS)来源,可以缓解机器学习应用中普遍存在的数据标注瓶颈问题,从而替代耗时费力的人工获取真实标签的过程。然而,当前最先进的无监督训练数据方法通常需要两个独立的建模步骤:首先基于弱监督来源学习一个概率潜变量模型——该过程往往依赖于在实际中极少成立的假设;随后再进行下游模型的训练。值得注意的是,第一步的建模过程并未考虑下游模型的性能表现。针对上述局限,我们提出一种端到端的方法,通过神经网络对先前的概率后验分布进行重参数化,生成概率标签,并直接最大化下游模型与这些标签的一致性,从而实现对下游模型的端到端学习。实验结果表明,相较于以往方法,本方法在下游测试集上的最终模型性能显著提升,同时对弱监督来源之间依赖关系的鲁棒性也得到显著增强。

代码仓库

autonlab/weasel
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
classification-on-biasbiosWeaSEL
1:1 Accuracy: 86

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
端到端弱监督 | 论文 | HyperAI超神经