日期

6 个月前

数据集组织

论文 URL

2507.19634

许可证

CC BY 4.0

标签

多模态

语言

自然语言处理

MCIF 是由 Fondazione Bruno Kessler 联合 Karlsruhe Institute of Technology 、 Translated 于 2025 年发布的一个基于科学演讲构建的多语言、多模态人工标注评测数据集，相关论文成果为 MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks，旨在评估多模态大语言模型在跨语言场景下的指令理解与执行能力，以及其融合语音、视觉和文本信息进行推理的能力。该数据集共包含 100 个科学演讲样本，覆盖约 10 小时的视频内容。数据集提供文本、语音和视频三种模态输入，覆盖英语、德语、意大利语和中文四种语言，并同时包含长输入和短输入两种形式。其中，21 个核心演讲样本提供了完整的高质量英文人工转写，文本规模约 1.55 万词；其余样本主要用于摘要任务，均配有对应的论文摘要，并提供对齐的音频与视频内容。该数据集涵盖识别、翻译、问答和摘要等指令任务，所有任务均通过自然语言指令驱动，用于评估多模态模型的跨语言指令理解能力。

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 support@hyper.ai 联系我们,我们将及时审核并删除。