3 个月前

多任务半监督学习在类别不平衡话语分类中的应用

多任务半监督学习在类别不平衡话语分类中的应用

摘要

随着标注模式的不断演进,即使细微的差异也可能导致遵循旧标注模式的数据集变得无法使用。这阻碍了研究人员在已有标注工作基础上进一步开展研究,尤其在话语分析领域,导致大量规模较小且类别分布极不均衡的数据集长期存在。本文提出,通过多任务学习方法,可有效整合来自相似及不同领域的多个话语数据集,从而提升话语分类性能。在近期发布且规模较大的NewsDiscourse数据集上,我们的方法相较当前最优基准模型,Micro F1分数提升了4.9%,部分原因在于跨任务标签相关性的利用,显著改善了低频类别的分类表现。此外,本文还系统回顾了自然语言处理领域中针对资源匮乏问题提出的多种技术方案,并验证表明,在本研究设定下,现有各类方法均无法进一步提升分类准确率。

基准测试

基准方法指标
text-classification-on-newsdiscourseMT-Mac (Spangher et al., 2021)
macro F1: 63.46
text-classification-on-newsdiscourseMT-Mic (Spangher et al., 2021)
macro F1: 61.89
text-classification-on-newsdiscourseHuman (Post-Rec.) (Spangher et al., 2021)
macro F1: 73.69
text-classification-on-newsdiscourseHuman (Blind) (Spangher et al., 2021)
macro F1: 46.18

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多任务半监督学习在类别不平衡话语分类中的应用 | 论文 | HyperAI超神经