3 个月前

ChatGPT 能否替代传统 KBQA 模型?GPT LLM 系列问答性能的深入分析

ChatGPT 能否替代传统 KBQA 模型?GPT LLM 系列问答性能的深入分析

摘要

ChatGPT 是一种强大的大语言模型(Large Language Model, LLM),其知识库涵盖维基百科等资源,能够基于自身知识实现自然语言问答。因此,学术界和工业界日益关注 ChatGPT 是否能够替代传统的基于知识库的问答(Knowledge-Based Question Answering, KBQA)模型。尽管已有部分研究对 ChatGPT 的问答性能进行了分析,但针对各类复杂问题的大规模、综合性测试仍显不足,难以全面揭示该模型的局限性。本文提出一个遵循 Ribeiro 等人提出的 CheckList 框架中黑盒测试规范的评估体系。我们对 ChatGPT 及其系列大语言模型在八个真实世界中的基于知识库的复杂问答数据集上进行了系统评估,其中包括六个英文数据集和两个多语言数据集,测试用例总数约 19 万条。除 GPT 系列模型外,我们还评估了广受认可的 FLAN-T5 模型,以探究 GPT 系列与其他大语言模型之间的共性与差异。本研究的测试数据集与代码已公开,获取地址为:https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-GPT-family.git

基准测试

基准方法指标
question-answering-on-graphquestionsChatGPT
Accuracy: 53.1
question-answering-on-kqa-proChatGPT
Accuracy: 47.93
question-answering-on-webquestionsspChatGPT
Accuracy: 83.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ChatGPT 能否替代传统 KBQA 模型?GPT LLM 系列问答性能的深入分析 | 论文 | HyperAI超神经