4 个月前

通过将Token生成视为分类任务来打破LLM社区的天花板以实现集成

通过将Token生成视为分类任务来打破LLM社区的天花板以实现集成

摘要

将多个模型进行集成一直是提高现有性能极限的有效方法,并且在分类任务中通过简单地平均多个分类器的分类概率向量来实现更高的准确性,这种方法被广泛采用。然而,在蓬勃发展的开源大语言模型(LLM)社区中,集成方法较为罕见,通常仅限于对大语言模型生成的全文输出进行集成,例如通过排名器选择最佳输出,这导致了在令牌级别上的概率信息未能得到充分利用。本文中,我们将大语言模型生成每个令牌的过程视为分类任务(GaC)来进行集成。这种方法充分挖掘了每个生成步骤中的概率信息,并更好地防止了大语言模型在早期生成错误令牌从而引发累积错误。实验中,我们在多个基准测试上对最先进的大语言模型进行了集成,包括考试、数学和推理等领域,并观察到我们的方法打破了现有的社区性能上限。此外,我们还发现答案中的大多数令牌都是简单的,并不会影响最终答案的正确性。因此,我们也尝试了仅对关键令牌进行集成,结果表明该方法在各个基准测试中均能以更低的延迟获得更好的性能。

代码仓库

yaoching0/gac
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
arithmetic-reasoning-on-gsm8kGaC(Qwen2-72B-Instruct + Llama-3-70B-Instruct)
Accuracy: 90.91
multi-task-language-understanding-on-mmluQwen2-72B-Instruct
Average (%): 83.54
question-answering-on-triviaqaGaC(Qwen2-72B-Instruct + Llama-3-70B-Instruct)
EM: 79.29

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过将Token生成视为分类任务来打破LLM社区的天花板以实现集成 | 论文 | HyperAI超神经