3 个月前

CAW-coref:连词感知的词级共指消解

CAW-coref:连词感知的词级共指消解

摘要

当前最先进的共指消解系统通常需要对每篇文档调用多次大语言模型(LLM),因此在许多应用场景中(例如大规模语料库的信息抽取)成本过高。目前领先的词级共指消解系统(WL-coref)在仅需极低计算开销的情况下,即可达到主流SOTA系统96.6%的性能表现。本文中,我们识别出WL-coref存在一个常见但关键的失败案例:对并列提及结构(如“Tom and Mary”)的处理能力不足。为此,我们提出了一种简单而有效的解决方案,在OntoNotes测试集上的F1分数提升了0.9%,使高效词级共指消解方法与昂贵的SOTA方法之间的性能差距缩小了34.6%。我们提出的“并列感知词级共指消解模型”(Conjunction-Aware Word-level coreference model, CAW-coref)及其代码已开源,可通过 https://github.com/KarelDO/wl-coref 获取。

代码仓库

kareldo/wl-coref
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
coreference-resolution-on-ontonotescaw-coref + RoBERTa
F1: 81.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供