
摘要
由于BERT带来的显著改进,许多近期的表示模型采用了Transformer架构作为其主要构建模块,尽管词片段(wordpiece)分词系统并非与Transformer的概念内在相关,但这些模型依然继承了这一系统。虽然该系统被认为在字符的灵活性和完整单词的效率之间取得了良好的平衡,但在为特定领域(如医疗领域)构建模型时,使用来自通用领域的预定义词片段词汇表并不总是合适的。此外,采用词片段分词将关注点从单词级别转移到子词(subword)级别,使得模型在概念上更加复杂,并且在实际应用中可能不太方便。基于这些原因,我们提出了CharacterBERT,这是一种新的BERT变体,完全放弃了词片段系统,而是使用字符卷积神经网络(Character-CNN)模块通过参考字符来表示整个单词。我们展示了这种新模型在多种医疗领域任务中提高了BERT的性能,同时生成了稳健的、单词级别的和开放词汇表的表示。
代码仓库
helboukkouri/character-bert
官方
pytorch
GitHub 中提及
IMPLabUniPr/UniParma-at-semeval-2021-task-5
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| clinical-concept-extraction-on-2010-i2b2va | CharacterBERT (base, medical) | Exact Span F1: 89.24 |
| drug-drug-interaction-extraction-on-ddi | CharacterBERT (base, medical) | Micro F1: 80.38 |
| natural-language-inference-on-mednli | CharacterBERT (base, medical) | Accuracy: 84.95 |
| relation-extraction-on-chemprot | CharacterBERT (base, medical) | Micro F1: 73.44 |
| semantic-similarity-on-clinicalsts | CharacterBERT (base, medical, ensemble) | Pearson Correlation: 85.62 |