3 个月前

Otter:一种具有上下文指令微调的多模态模型

Otter:一种具有上下文指令微调的多模态模型

摘要

大规模语言模型(LLMs)由于在海量文本数据上的预训练,已在多种任务中展现出显著的少样本(few-shot)与零样本(zero-shot)学习能力,典型代表如GPT-3,其后续发展演进为InstructGPT和ChatGPT,能够有效理解自然语言指令并完成现实世界任务。本文提出将指令微调(instruction tuning)引入多模态模型,其动机源于Flamingo模型所采用的上游交错式预训练数据格式。我们采用类似方法构建了多模态上下文指令微调数据集——MultI-Modal In-Context Instruction Tuning(MIMIC-IT)。在此基础上,我们提出了Otter,一个基于OpenFlamingo(DeepMind Flamingo的开源版本)的多模态模型,该模型在MIMIC-IT数据集上进行训练,显著提升了指令遵循能力与上下文学习性能。此外,我们对OpenFlamingo的实现进行了优化,将所需训练资源从原先的1块A100 GPU降低至4块RTX-3090 GPU,大幅降低了研究门槛,实现了资源的普惠化。同时,我们已将OpenFlamingo与Otter集成至Hugging Face Transformers生态,使更多研究者能够便捷地将其融入自定义的训练与推理流程中。

代码仓库

luodian/otter
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-benchlmmOtter-7B
GPT-3.5 score: 39.13
visual-question-answering-vqa-on-core-mmOtter
Abductive: 33.64
Analogical: 13.33
Deductive: 22.49
Overall score: 22.69
Params: 7B

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Otter:一种具有上下文指令微调的多模态模型 | 论文 | HyperAI超神经