
摘要
深度的内外递归自编码器(DIORA;Drozdov 等,2019)是一种自监督神经模型,能够对输入句子进行句法树结构的推断,而无需依赖标注的训练数据。本文发现,尽管 DIORA 通过软动态规划方法对句子的所有可能二叉树进行了穷尽编码,但其向量平均策略具有局部贪心特性,在自底向上的图表解析(bottom-up chart parsing)中计算最高得分句法树时,无法纠正错误。为解决这一问题,我们提出 S-DIORA,这是 DIORA 的改进版本:通过在图表的每个单元格中引入硬性 argmax 操作与束搜索(beam)机制,使模型仅编码单一树结构,而非对多棵树进行软加权混合。实验结果表明,通过使用新算法对预训练的 DIORA 模型进行微调,我们在英语 WSJ Penn Treebank 数据集上实现了无监督成分句法分析的最新性能,F1 值提升 2.2% 至 6%,具体提升幅度取决于微调所用数据。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| constituency-grammar-induction-on-ptb | S-DIORA | Max F1 (WSJ): 63.96 Max F1 (WSJ10): 71.8 Mean F1 (WSJ): 57.6 |