HyperAIHyperAI

Command Palette

Search for a command to run...

MCIF:来自科学演讲的多模态跨语言指令遵循基准

Sara Papi Maike Züfle Marco Gaido Beatrice Savoldi Danni Liu Ioannis Douros Luisa Bentivogli Jan Niehues

Abstract

近年来,大语言模型的快速发展推动了多模态大语言模型(MLLMs)的兴起,这类模型在统一框架下整合了文本、语音与视觉信息。随着MLLMs从原本狭义的、单语种的、任务特定的系统,逐步演变为通用的指令遵循模型,一个关键的研究前沿在于如何在短时和长时上下文场景下,综合评估其多语言与多模态能力。然而,现有评估基准在联合衡量这些维度方面仍存在明显不足:它们往往局限于英语,主要聚焦单一模态,依赖短文本输入,或缺乏人工标注——这些局限性严重制约了对模型在不同语言、模态及任务复杂度下表现的全面评估。为弥补上述差距,我们提出MCIF(Multimodal Crosslingual Instruction Following,多模态跨语言指令遵循)——首个基于科学演讲的多语言人工标注基准,专为在短时与长时输入场景下,评估跨语言、多模态环境中的指令遵循能力而设计。MCIF涵盖语音、视觉与文本三大核心模态,覆盖英语、德语、意大利语和中文四种语言,能够全面评估MLLMs在跨语言情境中理解指令,并融合多模态上下文信息的能力。MCIF已以CC-BY 4.0许可协议发布,旨在推动多模态大语言模型领域的开放研究与持续发展。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供