3 个月前

长文本问答中的进展障碍

长文本问答中的进展障碍

摘要

长文本问答(Long-Form Question Answering, LFQA)任务要求检索与给定问题相关的文档,并基于这些文档生成一段长度适中的回答。尽管近年来已有诸多模型被提出用于LFQA,本文指出,该任务的设定本身带来了评估与数据集构建方面的根本性挑战,这些挑战目前严重阻碍了有意义的模型进展。为揭示上述问题,我们首先设计了一种新系统,该系统基于稀疏注意力机制与对比式检索学习,在ELI5 LFQA数据集上取得了当前最优性能。尽管该系统在公开排行榜上位居榜首,但深入分析揭示了若干令人担忧的趋势:(1)系统生成的答案实际上并未基于其所检索到的文档内容,缺乏事实依据;(2)ELI5数据集中存在显著的训练集与验证集重叠问题,至少81%的验证集问题在训练集中以改写(paraphrased)形式出现;(3)ROUGE-L指标对生成答案质量的评估缺乏有效性,且极易被人为操纵;(4)以往用于其他文本生成任务的人工评估方法在LFQA任务中可靠性不足。针对上述每一项问题,本文提出了相应的改进建议,旨在推动LFQA研究走向更加严谨的范式,从而在未来实现真正有意义的进展。

代码仓库

carriex/lfqa_eval
GitHub 中提及
martiansideofthemoon/hurdles-longform-qa
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
open-domain-question-answering-on-kilt-eli5arxiv.org/abs/2103.06332
F1: 22.88
KILT-F1: 2.34
KILT-RL: 2.36
R-Prec: 10.67
ROUGE-L: 23.19
Recall@5: 24.56
question-answering-on-kilt-eli5c-REALM
F1: 23.1
Rouge-L: 23.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
长文本问答中的进展障碍 | 论文 | HyperAI超神经