3 个月前

长尾表示、文本极性分类与数据增强

长尾表示、文本极性分类与数据增强

摘要

自然语言处理中主流的文本表示方法依赖于在大规模语料库上学习嵌入表示,这类方法具有组合性与距离保持等优良性质。本文提出一种新颖的方法,用于学习具有理想分布尾部正则性特征的重尾嵌入表示,从而能够借助多元极值理论框架对远离分布主体的异常点进行分析。特别地,我们构建了一个专用于该嵌入表示尾部的分类器,其性能显著优于基线方法。该分类器展现出尺度不变性特征,我们据此提出一种新型文本生成方法,用于实现标签保持的语料增强。在合成数据与真实文本数据上的数值实验验证了所提框架的有效性,结果表明该方法能够生成具有可控属性(如正面或负面情感)的语义合理句子。

基准测试

基准方法指标
sentiment-analysis-on-yelp-binaryLHTR
Error: 1.86
text-classification-on-amazon-2LHTR
Error: 5.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
长尾表示、文本极性分类与数据增强 | 论文 | HyperAI超神经