3 个月前

信息抽取研究:请关注分词(Tokenization)!

信息抽取研究:请关注分词(Tokenization)!

摘要

当前关于使用字符而非分词文本作为深度学习模型输入的优势与权衡的研究已取得显著进展。新型无分词模型摒弃了传统的分词步骤,但其实际效率仍不明确。此外,在序列标注任务中,分词的影响尚未得到充分探索。为此,本文研究了在文档信息提取过程中分词所带来的影响,并对基于子词与基于字符的模型进行了比较研究与分析。具体而言,研究聚焦于生物医学文本中的信息抽取(Information Extraction, IE)任务。研究的主要成果具有双重意义:一方面,合理的分词模式可引入归纳偏置,从而实现当前最优的性能表现;另一方面,基于字符的模型也展现出良好的效果。因此,向无分词信息抽取模型的过渡具备可行性。

代码仓库

christos42/inductive_bias_IE
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
relation-extraction-on-ade-corpusPFN (ALBERT XXL, average aggregation)
NER Macro F1: 91.5
RE+ Macro F1: 83.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
信息抽取研究:请关注分词(Tokenization)! | 论文 | HyperAI超神经