3 个月前

2022年有效性与新颖性预测共享任务概述

2022年有效性与新颖性预测共享任务概述

摘要

本文概述了作为第九届论据挖掘研讨会(ArgMining 2022)组成部分举办的“论据有效性与新颖性预测共享任务”(Argument Validity and Novelty Prediction Shared Task)。该任务聚焦于在给定文本前提(textual premise)的基础上,预测结论的有效性与新颖性。其中,有效性指结论在多大程度上能够被给定前提所合理支持;新颖性则指结论在多大程度上包含了相对于前提而言的新内容。共有六支团队参与该任务,针对二元分类子任务提交了共计13个系统运行结果,针对相对分类子任务提交了2个系统运行结果。实验结果表明,该任务具有较高挑战性:在有效性预测方面,最佳F1分数达到约75%;在新颖性预测方面,最佳F1分数为70%;而在同时正确预测有效性与新颖性的联合任务中,最佳F1分数为45%。本文总结了任务的定义与所使用的数据集,综述了各参赛系统取得的实验结果,并对来自不同团队的多样化贡献进行了深入分析,提炼出具有启发性的见解。

基准测试

基准方法指标
valnov-on-valnov-subtask-aACCEPT-1
JOINT-F1: 43.13
NOV-F1: 70.00
VAL-F1: 59.20
valnov-on-valnov-subtask-aBaseline
JOINT-F1: 23.90
NOV-F1: 36.12
VAL-F1: 59.96
valnov-on-valnov-subtask-aCSS
JOINT-F1: 42.40
NOV-F1: 59.86
VAL-F1: 70.76
valnov-on-valnov-subtask-aSystem Average
JOINT-F1: 35.94
NOV-F1: 52.97
VAL-F1: 62.74
valnov-on-valnov-subtask-aNLP@UIT
JOINT-F1: 25.89
NOV-F1: 43.36
VAL-F1: 61.72
valnov-on-valnov-subtask-aCLTeamL-3
JOINT-F1: 45.16
NOV-F1: 61.75
VAL-F1: 74.64
valnov-on-valnov-subtask-aHarshad
JOINT-F1: 17.35
NOV-F1: 39.00
VAL-F1: 56.31
valnov-on-valnov-subtask-bAXiS@EdUni
JOINT-F1: 29.16
NOV-F1: 25.86
VAL-F1: 32.47
valnov-on-valnov-subtask-bNLP@UIT
JOINT-F1: 41.50
NOV-F1: 38.39
VAL-F1: 44.60
valnov-on-valnov-subtask-bBaseline
JOINT-F1: 21.46
NOV-F1: 23.09
VAL-F1: 19.82

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
2022年有效性与新颖性预测共享任务概述 | 论文 | HyperAI超神经