
摘要
我们应用了T5序列到序列模型来应对AI2 WinoGrande挑战,通过将每个示例分解为两个输入文本字符串,每个字符串包含一个假设,并使用分配给“蕴含”(entailment)标记的概率作为假设的评分。我们在官方排行榜上的首次(也是唯一一次)提交于2020年3月13日获得了0.7673的AUC分数,这是当时已知的最佳结果,并且比之前的最先进水平高出超过五个百分点。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| coreference-resolution-on-winograd-schema | TTTTT 3B (fine-tuned) | Accuracy: 84.6 |