4 个月前

基于对抗训练的鲁棒性多语言词性标注

基于对抗训练的鲁棒性多语言词性标注

摘要

对抗训练(Adversarial Training, AT)是一种强大的神经网络正则化方法,旨在实现对输入扰动的鲁棒性。然而,在自然语言处理的背景下,通过AT获得的鲁棒性的具体效果仍不明确。在本文中,我们提出并分析了一种利用AT的神经词性标注模型。我们在Penn Treebank WSJ语料库和Universal Dependencies(UD)数据集(涵盖27种语言)上进行了实验,发现AT不仅提高了整体标注准确性,还具有以下优势:1)在低资源语言中有效防止过拟合;2)提高罕见/未见词汇的标注准确性。此外,我们还证明了3)通过AT改进的标注性能有助于下游任务——依存句法分析;4)AT有助于模型学习更干净的词表示。5)所提出的AT模型在不同的序列标注任务中普遍有效。这些积极的结果激励了进一步将AT应用于自然语言处理任务。

代码仓库

michiyasunaga/pos_adv
官方
GitHub 中提及

基准测试

基准方法指标
chunking-on-conll-2000BiLSTM-CRF
Exact Span F1: 95.18
chunking-on-conll-2000Adversarial Training
Exact Span F1: 95.25
named-entity-recognition-ner-on-conll-2003Adversarial Bi-LSTM
F1: 91.56
part-of-speech-tagging-on-penn-treebankAdversarial Bi-LSTM
Accuracy: 97.59
part-of-speech-tagging-on-udAdversarial Bi-LSTM
Avg accuracy: 96.65

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于对抗训练的鲁棒性多语言词性标注 | 论文 | HyperAI超神经