3 个月前

基础模型能否驾驭你的数据?

基础模型能否驾驭你的数据?

摘要

基础模型(Foundation Models, FMs)是在大规模语料数据上训练而成的模型,能够在极大规模下实现对新任务的泛化能力,而无需针对特定任务进行微调。随着这些模型规模的持续扩大,各项创新不断推动其在语言与图像任务上的能力边界。本文旨在探索基础模型尚未充分研究的一个领域:经典数据处理任务,如数据清洗与数据集成。作为概念验证,我们将五类数据清洗与集成任务转化为提示(prompting)任务,并评估基础模型在这些任务上的表现。研究发现,尽管这些模型并未专门针对数据处理任务进行训练,但大型基础模型仍能实现良好的泛化能力,并在数据清洗与集成任务上达到当前最优(SoTA)水平。本文进一步识别出该领域面临的关键研究挑战与机遇,包括在处理隐私数据与领域特定数据方面的挑战,以及为非专家用户提供更易用的数据管理系统所带来的潜在机会。相关代码与实验已公开发布于:https://github.com/HazyResearch/fm_data_tasks。

代码仓库

fminference/flexgen
jax
GitHub 中提及
hazyresearch/fm_data_tasks
官方
GitHub 中提及

基准测试

基准方法指标
entity-resolution-on-amazon-googletext-davinci-002_zeroshot
F1 (%): 54.30
entity-resolution-on-amazon-googletext-davinci-002_fewshot-10
F1 (%): 63.50

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基础模型能否驾驭你的数据? | 论文 | HyperAI超神经