3 个月前

GPT-4o作为黄金标准:一种可扩展且通用的过滤语言模型预训练数据的方法

GPT-4o作为黄金标准:一种可扩展且通用的过滤语言模型预训练数据的方法

摘要

大规模语言模型需要海量的高质量训练数据,但如何有效筛选网络规模的数据集仍是重大挑战。本文表明,GPT-4o在识别高质量训练数据方面表现出色,但其高昂的成本使其难以在全网规模下应用。为此,我们提出了SIEVE——一种轻量级替代方案,其性能可与GPT-4o相当,成本却不足其1%。SIEVE的执行效率极高,其完成500次数据过滤操作的成本,仅相当于一次GPT-4o过滤调用的开销。SIEVE的核心在于将GPT-4o与轻量级文本分类模型无缝集成,通过主动学习机制,仅需少量GPT-4o调用即可在后台对轻量模型进行微调。模型训练完成后,即可在极低成本下达到与GPT-4o相媲美的过滤效果。借助不同的过滤提示(prompt),SIEVE能够高效地从网络规模语料库中筛选出适用于通用或特定领域任务的高质量数据——这一能力在当前高质量领域专用数据集严重匮乏的背景下尤为珍贵。通过自动评估与人工评估相结合的大量实验验证,SIEVE在五个高度专业化过滤任务上的表现与GPT-4o基本相当。此外,在针对网络爬取数据集的质量过滤任务中,我们在DataComp-LM挑战赛中进一步证明,SIEVE在选取大语言模型预训练数据方面,显著优于当前最先进的质量过滤方法。

基准测试

基准方法指标
multi-task-language-understanding-on-mmluGPT-4 o1(300b)
Average (%): 87
question-answering-on-newsqaOpenAI/GPT-4o
EM: 70.21
F1: 81.74

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GPT-4o作为黄金标准:一种可扩展且通用的过滤语言模型预训练数据的方法 | 论文 | HyperAI超神经