4 个月前

一种意外稳健的解决温格拉德模式挑战的技巧

一种意外稳健的解决温格拉德模式挑战的技巧

摘要

温格拉德模式挑战(Winograd Schema Challenge, WSC)数据集WSC273及其推理对应数据集WNLI是自然语言理解和常识推理领域的流行基准。在本文中,我们展示了当对类似代词消歧问题的数据集(记为WSCR)进行微调时,三个语言模型在WSC273上的性能显著提升。此外,我们还生成了一个大规模的无监督WSC类数据集。通过在引入的数据集和WSCR数据集上对BERT语言模型进行微调,我们在WSC273和WNLI上分别达到了72.5%和74.7%的整体准确率,比之前的最先进解决方案分别提高了8.8%和9.6%。此外,我们的微调模型在Trichelair等人(2018)引入的WSC273的“复杂”子集上也表现出更加一致的鲁棒性。

代码仓库

vid-koci/bert-commonsense
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
coreference-resolution-on-winograd-schemaBERT-base 110M (fine-tuned on WSCR)
Accuracy: 62.3
coreference-resolution-on-winograd-schemaBERTwiki 340M (fine-tuned on WSCR)
Accuracy: 72.5
coreference-resolution-on-winograd-schemaBERT-large 340M (fine-tuned on WSCR)
Accuracy: 71.4
coreference-resolution-on-winograd-schemaBERTwiki 340M (fine-tuned on half of WSCR)
Accuracy: 70.3
natural-language-inference-on-wnliBERT-large 340M (fine-tuned on WSCR)
Accuracy: 71.9
natural-language-inference-on-wnliBERTwiki 340M (fine-tuned on WSCR)
Accuracy: 74.7
natural-language-inference-on-wnliBERT-base 110M (fine-tuned on WSCR)
Accuracy: 70.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种意外稳健的解决温格拉德模式挑战的技巧 | 论文 | HyperAI超神经