HyperAIHyperAI

Command Palette

Search for a command to run...

MMEvalPro 多模态基准评估数据集

Date

1 年前

Size

237.76 MB

Organization

Alibaba Group
Peking University
The Chinese University of Hong Kong

Publish URL

github.com

Paper URL

arxiv.org

MMEvalPro 是由北京大学、中国医学科学院、香港中文大学和阿里巴巴的研究团队于 2024 年提出的多模态大模型 (LMMs) 评估基准,旨在提供更可信和高效的评估方法,解决现有多模态评估基准中存在的问题。现有基准在评估 LMMs 时存在系统性偏差,即使是没有视觉感知能力的大型语言模型 (LLMs) 也能在这些基准上取得非平凡的性能,这削弱了这些评估的可信度。 MMEvalPro 通过增加两个「锚」问题(一个感知问题和一个知识问题)来改进现有的评估方法,形成测试模型多模态理解不同方面的「问题三元组」。

MEvalPro 的主要评估指标是「真实准确性 (Genuine Accuracy)」,它要求模型必须正确回答三元组中的所有问题才能获得分数。这个过程包括多个阶段的审核和质量检查,以确保问题是清晰、相关和具有挑战性的。最终的基准包含 2,138 个问题三元组,总共 6,414 个不同的问题,涵盖不同主题和难度级别。

MMEvalPro 中的三部曲评估示例
MMEvalPro.torrent
Seeding 1Downloading 0Completed 188Total Downloads 216
  • MMEvalPro/
    • README.md
      1.95 KB
    • README.txt
      3.9 KB
      • data/
        • MMEvalPro.zip
          237.76 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MMEvalPro 多模态基准评估数据集 | Datasets | HyperAI超神经