3 个月前

MediSwift:高效稀疏预训练生物医学语言模型

MediSwift:高效稀疏预训练生物医学语言模型

摘要

大型语言模型(LLMs)通常在涵盖多个领域的通用数据上进行训练,但近期涌现出大量面向特定领域的专用语言模型,其在特定任务(如生物医学领域)中的表现已展现出超越通用模型的潜力。尽管领域特定的预训练能够提升训练效率并生成更小的模型,但这些LLM的训练仍面临高昂的计算成本,给资源预算带来挑战。为此,我们提出MediSwift——一套基于生物医学领域文本数据的稀疏预训练方法,构建了一系列生物医学专用语言模型。通过在预训练阶段引入高达75%的权重稀疏性,MediSwift实现了训练过程中浮点运算量(FLOPs)2至2.5倍的降低。值得注意的是,所有稀疏预训练均在Cerebras CS-2系统上完成,该系统专为利用非结构化权重稀疏性实现加速而设计,从而显著提升了MediSwift模型的训练效率。在后续的密集微调与策略性软提示(soft prompting)阶段,MediSwift模型在生物医学任务上的表现超越了现有参数规模达70亿的各类LLM,尤其在PubMedQA等任务上树立了新的效率-精度平衡基准。结果表明,结合稀疏预训练、密集微调与软提示策略,是一种在特定领域构建高性能且计算高效语言模型的有效方法。

基准测试

基准方法指标
question-answering-on-pubmedqaMediSwift-XL
Accuracy: 76.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MediSwift:高效稀疏预训练生物医学语言模型 | 论文 | HyperAI超神经