3 个月前

长尾类别分布下多标签文本分类的平衡方法

长尾类别分布下多标签文本分类的平衡方法

摘要

多标签文本分类是一项具有挑战性的任务,因为它需要捕捉标签之间的依赖关系。当类别分布呈现长尾特征时,该任务的难度进一步增加。针对类别不平衡问题,重采样(resampling)和重加权(re-weighting)是常用方法,但当标签之间存在依赖关系时,这些方法效果有限,因为它们会导致常见标签的过度采样。本文提出将平衡损失函数(balancing loss functions)应用于多标签文本分类任务。我们在一个通用领域数据集(90个标签,Reuters-21578)和一个来自PubMed的领域特定数据集(18211个标签)上进行了实验。结果表明,一种具有分布平衡特性的损失函数,能够同时有效应对类别不平衡与标签关联问题,在性能上显著优于常用的损失函数。分布平衡方法在图像识别领域已取得成功应用,本文首次将其有效性拓展至自然语言处理领域。相关源代码已开源,地址为:https://github.com/Roche/BalancedLossNLP。

代码仓库

blessu/balancedlossnlp
官方
pytorch
GitHub 中提及
Roche/BalancedLossNLP
官方
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
长尾类别分布下多标签文本分类的平衡方法 | 论文 | HyperAI超神经