
摘要
本文概述了作为第九届论据挖掘研讨会(ArgMining 2022)组成部分举办的“论据有效性与新颖性预测共享任务”(Argument Validity and Novelty Prediction Shared Task)。该任务聚焦于在给定文本前提(textual premise)的基础上,预测结论的有效性与新颖性。其中,有效性指结论在多大程度上能够被给定前提所合理支持;新颖性则指结论在多大程度上包含了相对于前提而言的新内容。共有六支团队参与该任务,针对二元分类子任务提交了共计13个系统运行结果,针对相对分类子任务提交了2个系统运行结果。实验结果表明,该任务具有较高挑战性:在有效性预测方面,最佳F1分数达到约75%;在新颖性预测方面,最佳F1分数为70%;而在同时正确预测有效性与新颖性的联合任务中,最佳F1分数为45%。本文总结了任务的定义与所使用的数据集,综述了各参赛系统取得的实验结果,并对来自不同团队的多样化贡献进行了深入分析,提炼出具有启发性的见解。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| valnov-on-valnov-subtask-a | ACCEPT-1 | JOINT-F1: 43.13 NOV-F1: 70.00 VAL-F1: 59.20 |
| valnov-on-valnov-subtask-a | Baseline | JOINT-F1: 23.90 NOV-F1: 36.12 VAL-F1: 59.96 |
| valnov-on-valnov-subtask-a | CSS | JOINT-F1: 42.40 NOV-F1: 59.86 VAL-F1: 70.76 |
| valnov-on-valnov-subtask-a | System Average | JOINT-F1: 35.94 NOV-F1: 52.97 VAL-F1: 62.74 |
| valnov-on-valnov-subtask-a | NLP@UIT | JOINT-F1: 25.89 NOV-F1: 43.36 VAL-F1: 61.72 |
| valnov-on-valnov-subtask-a | CLTeamL-3 | JOINT-F1: 45.16 NOV-F1: 61.75 VAL-F1: 74.64 |
| valnov-on-valnov-subtask-a | Harshad | JOINT-F1: 17.35 NOV-F1: 39.00 VAL-F1: 56.31 |
| valnov-on-valnov-subtask-b | AXiS@EdUni | JOINT-F1: 29.16 NOV-F1: 25.86 VAL-F1: 32.47 |
| valnov-on-valnov-subtask-b | NLP@UIT | JOINT-F1: 41.50 NOV-F1: 38.39 VAL-F1: 44.60 |
| valnov-on-valnov-subtask-b | Baseline | JOINT-F1: 21.46 NOV-F1: 23.09 VAL-F1: 19.82 |