4 个月前

使用弱监督协同训练无监督成分句法分析器

使用弱监督协同训练无监督成分句法分析器

摘要

我们提出了一种无监督解析方法,该方法依赖于引导分类器来识别一个节点是否支配句子中的特定跨度。存在两种类型的分类器:一种是内部分类器,作用于跨度内;另一种是外部分类器,作用于给定跨度之外的所有内容。通过自我训练和联合训练这两种分类器,我们展示了它们之间的相互作用有助于提高两者的准确性,从而有效地进行解析。种子引导技术为训练这些分类器准备了数据。我们的分析进一步验证了这种方法结合已知语言(左分支/右分支)的先验分枝知识和最小启发式规则,可以向解析器注入强烈的归纳偏置,在英语(PTB)测试集上达到了63.1的F$_1$分数。此外,我们通过在中文(CTB)和日文(KTB)的树库上进行评估,展示了我们架构的有效性,并取得了新的最先进结果。我们的代码和预训练模型可在https://github.com/Nickil21/weakly-supervised-parsing 获取。

代码仓库

基准测试

基准方法指标
constituency-grammar-induction-on-ptbinside-outside co-training + weak supervision
Max F1 (WSJ): 66.8
Mean F1 (WSJ): 63.1
Mean F1 (WSJ10): 74.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
使用弱监督协同训练无监督成分句法分析器 | 论文 | HyperAI超神经