
摘要
我们提出了一种完全无监督的深度内外递归自编码器(Deep Inside-Outside Recursive Autoencoder, DIORA),用于同时发现句法结构并学习所生成句法树中各成分的表示。该方法通过条件化地预测输入句子中的每个词(以其余词为上下文)来建模语言结构。在训练过程中,我们采用动态规划算法枚举句子的所有可能二叉树结构;在推理阶段,则使用CKY算法提取得分最高的句法分析结果。在标准WSJ数据集上的实验表明,DIORA在无监督二叉句法分析任务上的表现优于此前报道的各类方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| constituency-grammar-induction-on-ptb | DIORA (+PP) | Max F1 (WSJ): 56.2 Max F1 (WSJ10): 60.55 Mean F1 (WSJ): 55.7 |
| constituency-grammar-induction-on-ptb | DIORA | Max F1 (WSJ): 49.6 Max F1 (WSJ10): 68.5 Mean F1 (WSJ): 48.9 Mean F1 (WSJ10): 67.7 |