4 个月前

超越专业化:评估多语言大型语言模型在年龄和性别估计中的能力

超越专业化:评估多语言大型语言模型在年龄和性别估计中的能力

摘要

多模态大语言模型(Multimodal Large Language Models, MLLMs)最近获得了极大的关注。强大的商业模型如ChatGPT-4V和Gemini,以及开源模型如LLaVA,本质上都是通用模型,被应用于解决各种任务,包括计算机视觉领域的任务。这些神经网络具备如此强大的通用知识和推理能力,以至于它们在未专门训练的任务上也表现出色。我们对迄今为止最强大的MLLMs——ShareGPT4V、ChatGPT和LLaVA-Next——在一项专门的年龄和性别估计任务中进行了比较,该任务使用了我们最先进的专用模型MiVOLO。此外,我们还更新了MiVOLO,并在本文中提供了详细的说明和新的评估指标。这一比较产生了一些有趣的结果和见解,揭示了参与模型的优势和劣势。进一步地,我们尝试了多种方法来微调ShareGPT4V模型以应对这一特定任务,旨在实现该挑战中的最先进水平。尽管这种模型在生产环境中并不实用,因为它相比专用模型MiVOLO而言成本极高,但在某些任务中(如数据标注)仍可能非常有用。

代码仓库

wildchlamydia/mivolo
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
age-and-gender-classification-on-adienceMiVOLO-V2
Accuracy (5-fold): 97.39
age-and-gender-classification-on-adience-ageMiVOLO-V2
Accuracy (5-fold): 69.43
age-and-gender-estimation-on-lagenda-ageMiVOLO-V2
CS@5: 74.48
MAE: 3.65
age-and-gender-estimation-on-lagenda-genderMiVOLO-V2
CS@5: 74.48
age-estimation-on-cacdMiVOLO-V2
MAE: 3.89
age-estimation-on-imdb-cleanMiVOLO-V2
Average mean absolute error: 3.97
age-estimation-on-lagendaMiVOLO-V2
MAE: 3.65
facial-attribute-classification-on-fairfaceMiVOLO-V2
age-top1: 62.28
gender-top1: 97.5
gender-prediction-on-lagendaMiVOLO-V2
Accuracy: 97.99

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
超越专业化:评估多语言大型语言模型在年龄和性别估计中的能力 | 论文 | HyperAI超神经