
摘要
我们研究了一种形式化的语法归纳问题,该模型将句子视为由复合概率上下文无关文法生成的。与传统的单一随机文法学习方法不同,我们的文法规则概率受到每个句子连续潜在变量的调节,从而在传统上下文无关假设之外引入了边缘依赖关系。在这个文法中,推理通过折叠变分推断完成,其中对连续变量使用了摊销变分后验分布,而潜在树则通过动态规划被边缘化。在英语和汉语上的实验表明,当评估无监督句法分析时,我们的方法相比最近的最先进方法具有更高的有效性。
代码仓库
sustcsonglin/TN-PCFG
pytorch
harvardnlp/compound-pcfg
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| constituency-grammar-induction-on-ptb | Compound PCFG | Max F1 (WSJ): 60.1 Max F1 (WSJ10): 68.8 Mean F1 (WSJ): 55.2 |
| constituency-grammar-induction-on-ptb | Neural PCFG | Max F1 (WSJ): 52.6 Mean F1 (WSJ): 50.8 |