HyperAI超神经

摘要

ChatGPT 是一种强大的大语言模型（Large Language Model, LLM），其知识库涵盖维基百科等资源，能够基于自身知识实现自然语言问答。因此，学术界和工业界日益关注 ChatGPT 是否能够替代传统的基于知识库的问答（Knowledge-Based Question Answering, KBQA）模型。尽管已有部分研究对 ChatGPT 的问答性能进行了分析，但针对各类复杂问题的大规模、综合性测试仍显不足，难以全面揭示该模型的局限性。本文提出一个遵循 Ribeiro 等人提出的 CheckList 框架中黑盒测试规范的评估体系。我们对 ChatGPT 及其系列大语言模型在八个真实世界中的基于知识库的复杂问答数据集上进行了系统评估，其中包括六个英文数据集和两个多语言数据集，测试用例总数约 19 万条。除 GPT 系列模型外，我们还评估了广受认可的 FLAN-T5 模型，以探究 GPT 系列与其他大语言模型之间的共性与差异。本研究的测试数据集与代码已公开，获取地址为：https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-GPT-family.git

基准	方法	指标
question-answering-on-graphquestions	ChatGPT	Accuracy: 53.1
question-answering-on-kqa-pro	ChatGPT	Accuracy: 47.93
question-answering-on-webquestionssp	ChatGPT	Accuracy: 83.7

基准

方法

指标

question-answering-on-graphquestions

ChatGPT

Accuracy: 53.1

question-answering-on-kqa-pro

ChatGPT

Accuracy: 47.93

question-answering-on-webquestionssp

ChatGPT

Accuracy: 83.7

ChatGPT 能否替代传统 KBQA 模型？GPT LLM 系列问答性能的深入分析

Yiming Tan Dehai Min Yu Li Wenbo Li Nan Hu Yongrui Chen Guilin Qi

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters

ChatGPT 能否替代传统 KBQA 模型？GPT LLM 系列问答性能的深入分析

Yiming Tan Dehai Min Yu Li Wenbo Li Nan Hu Yongrui Chen Guilin Qi

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

ChatGPT 能否替代传统 KBQA 模型？GPT LLM 系列问答性能的深入分析

Yiming Tan Dehai Min Yu Li Wenbo Li Nan Hu Yongrui Chen Guilin Qi

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

ChatGPT 能否替代传统 KBQA 模型？GPT LLM 系列问答性能的深入分析

Yiming Tan Dehai Min Yu Li Wenbo Li Nan Hu Yongrui Chen Guilin Qi

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters