3 个月前

通过迭代共识组合预训练模型的集成

通过迭代共识组合预训练模型的集成

摘要

大规模预训练模型展现出与其训练数据密切相关的独特且互补的能力。例如,像GPT-3这样的语言模型具备文本推理能力,却无法理解视觉信息;而像DALL-E这样的视觉模型虽能生成逼真的图像,却难以理解复杂的语言描述。在本研究中,我们提出了一种统一的框架,用于构建不同预训练模型的集成系统——通过融合各模型的各自优势,以零样本(zero-shot)方式解决多种多模态任务。我们利用预训练模型作为“生成器”或“评分器”,并通过闭环迭代共识优化机制进行组合:生成器提出候选结果,评分器则不断提供反馈以逐步优化生成内容。这种闭环交互机制使模型能够识别并纠正其他模型引入的错误,显著提升下游任务的表现,例如在小学数学问题上的准确率提升达7.5%,且无需任何模型微调。实验表明,由多个评分器组成的集成系统所达成的共识,优于单一评分器的反馈效果,充分挖掘了各专家模型的优势。结果证明,该方法可作为通用的零样本多模态任务框架,适用于图像生成、视频问答、数学推理以及机器人操作等多种场景。项目主页:https://energy-based-model.github.io/composing-pretrained-models。

基准测试

基准方法指标
arithmetic-reasoning-on-gsm8kGPT-2-Medium 355M + question-solution classifier (BS=1)
Accuracy: 16.8
Parameters (Billion): 0.355
arithmetic-reasoning-on-gsm8kGPT-2-Medium 355M (fine-tuned, BS=5)
Accuracy: 18.3
Parameters (Billion): 0.355
arithmetic-reasoning-on-gsm8kGPT-2-Medium 355M (BS=5)
Accuracy: 12.2
Parameters (Billion): 0.355
arithmetic-reasoning-on-gsm8kGPT-2-Medium 355M + question-solution classifier (BS=5)
Accuracy: 20.8
Parameters (Billion): 0.355
image-generation-on-imagenet-64x64GLIDE + CLS-FREE
FID: 29.219
Inception Score: 25.926
KID: 5.325
image-generation-on-imagenet-64x64GLIDE +CLS
KID: 7.952
image-generation-on-imagenet-64x64GLIDE + CLIP
FID: 30.462
Inception Score: 25.017
KID: 6.174
image-generation-on-imagenet-64x64GLIDE + CLS
FID: 30.871
Inception Score: 22.077
image-generation-on-imagenet-64x64GLIDE + CLIP + CLS + CLS-FREE
FID: 29.184
Inception Score: 34.952
KID: 3.766
video-question-answering-on-activitynet-qaGPT-2 + CLIP-14 + CLIP-multilingual (Zero-Shot)
Accuracy: 61.2
video-question-answering-on-activitynet-qaGPT-2 + CLIP-32 (Zero-Shot)
Accuracy: 58.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过迭代共识组合预训练模型的集成 | 论文 | HyperAI超神经