3 个月前

任意时间主动学习

任意时间主动学习

摘要

在部署监督学习系统时,一个常见的瓶颈在于收集人工标注样本。在许多应用场景中,标注者对某个样本的标签判断是逐步形成的——例如,每多阅读文档中的一个词,或每多花一分钟观察一段视频,都会逐步影响其最终的标注决策。本文探讨了是否可以通过在标注过程尚未完成时即请求标注(例如,在仅阅读文档前25个词后)来更高效地训练学习模型。尽管这种方法可能缩短整体标注时间,但也带来了风险:若在标注者尚未形成足够判断时过早中断,可能导致其无法提供有效标签。为此,我们提出一种“随时可用的主动学习”(anytime active learning)方法,旨在同时优化标注时间与标注响应率。我们在两个文档分类数据集上开展了用户研究,并构建了模拟标注者模型以模仿真实用户的行为。模拟实验结果表明,该方法在两个数据集上均显著优于多个基线方法。例如,在每份文档标注时间预算为一小时的情况下,仅标注每篇文档前25个词所训练出的分类器,其分类错误率比标注前100个词的方案降低了17%。

基准测试

基准方法指标
text-classification-on-imdb-movie-reviews-1Logistic Regression
AUC: 0.84
text-classification-on-twitter-sentiment-1Logistic Regression
AUC: 0.9298

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
任意时间主动学习 | 论文 | HyperAI超神经