8 个月前

摘要

温格拉德模式挑战（Winograd Schema Challenge, WSC）（Levesque, Davis 和 Morgenstern 2011）是一项常识推理的基准测试，包含273个由专家设计的代词消解问题，最初旨在无法被依赖选择偏好或词汇关联的统计模型解决。然而，最近神经语言模型的进步已经在WSC的不同变体上达到了约90%的准确率。这引发了一个重要问题：这些模型是否真正获得了稳健的常识能力，还是它们依赖于数据集中的虚假偏差，从而高估了机器常识的真实能力。为了探讨这一问题，我们引入了WinoGrande，这是一个受原始WSC设计启发的大规模数据集，包含44,000个问题，旨在提高数据集的规模和难度。数据集构建的关键步骤包括：(1) 精心设计的众包程序；(2) 使用一种新颖的AfLite算法系统地减少偏差，该算法将人类可检测的词汇关联推广到机器可检测的嵌入关联。在WinoGrande上表现最佳的现有方法达到了59.4%-79.1%的准确率，比人类表现（94.0%）低15-35%，具体取决于允许使用的训练数据量。此外，我们在五个相关基准测试中建立了新的最先进结果——WSC（90.1%）、DPR（93.1%）、COPA（90.6%）、KnowRef（85.6%）和Winogender（97.1%）。这些结果具有双重意义：一方面，它们展示了当WinoGrande作为迁移学习资源时的有效性；另一方面，它们引发了担忧，即我们可能在所有这些基准测试中都高估了机器常识的真实能力。我们强调，在现有的和未来的基准测试中进行算法偏差减少的重要性，以减轻这种高估现象。

源 PDF