Command Palette
Search for a command to run...
FACTS排行榜:大语言模型事实性综合基准
FACTS排行榜:大语言模型事实性综合基准
Abstract
我们推出了 FACTS 评估排行榜(The FACTS Leaderboard),这是一个在线排行榜系列及其配套的基准测试集,旨在全面评估语言模型在多种场景下生成事实性内容的能力。该评估套件通过整合四个独立子排行榜的表现,提供对模型事实性能力的综合性衡量:FACTS 多模态:评估模型在回答基于图像的问题时生成内容的事实准确性; FACTS 参数化:通过模型内部参数回答“闭卷”事实性问题,衡量其世界知识水平; FACTS 检索:在信息检索场景中评估事实性,要求模型调用搜索 API 获取信息; FACTS 基于文档的生成(v2):评估长文本生成是否基于所提供的文档内容,该子榜单引入了显著优化的评分模型。每个子排行榜均采用自动化评分模型对模型输出进行打分,最终的套件总分是四个分项得分的平均值,旨在提供一种稳健且平衡的综合评估,全面反映模型整体的事实性表现。FACTS 评估排行榜套件将持续维护,包含公开与私有数据划分,既支持外部参与,又保障评估体系的完整性。该平台可访问:https://www.kaggle.com/benchmarks/google/facts。