3 个月前

BioNLI:利用词汇语义约束生成用于对抗样本的生物医学自然语言推理数据集

BioNLI:利用词汇语义约束生成用于对抗样本的生物医学自然语言推理数据集

摘要

自然语言推理(Natural Language Inference, NLI)在生物医学领域的复杂决策中具有关键作用。例如,一个核心问题在于:某一给定的生物医学机制是否得到了实验证据的支持?这一问题可被视为一个NLI任务,但目前尚无直接可用的数据集来解决该问题。其主要挑战在于,人工构建具有信息量的负例样本在该任务中既困难又成本高昂。为此,我们提出了一种新颖的半监督方法,该方法从现有的生物医学数据集中自动构建NLI数据集,这些数据集在论文摘要中配对了生物机制与相应的实验证据。我们通过九种不同的策略生成多样化的负例样本,这些策略通过对底层机制结构进行操控实现,包括基于规则的方法(如反转相互作用中实体的角色),以及更重要的是,利用神经逻辑解码系统中的逻辑约束作为扰动手段。我们采用该方法构建了一个面向生物医学领域NLI任务的新数据集,命名为BioNLI,并在此数据集上对两种最先进的生物医学分类器进行了基准测试。实验结果表明,最佳F1分数约为70分的中段水平,反映出该任务的高难度。尤为重要的是,不同类别负例样本上的表现差异显著:对于简单的角色替换负例,F1分数高达97%;而对于通过神经逻辑解码生成的负例,其性能仅略高于随机猜测水平。

代码仓库

StonyBrookNLP/BioNLI
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
natural-language-inference-on-bionliBioLinkBert
Macro F1: 0.77

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BioNLI:利用词汇语义约束生成用于对抗样本的生物医学自然语言推理数据集 | 论文 | HyperAI超神经