
摘要
动物行为学是动物研究中的一个重要方面,而动物行为标注则是研究动物行为的基础。这一过程通常涉及对视频片段进行行为语义标签的标注,是一项复杂、主观且多模态的任务。随着多模态大语言模型(LLMs)的迅速发展,新的应用在畜牧业场景中涌现,用于理解动物行为。本研究评估了多模态大语言模型在猪仔活动识别中的视觉感知能力。为此,我们创建了包含猪仔特写视频片段的测试数据集,并对全景视频片段进行了标注。这些数据被用来评估四种多模态大语言模型——Video-LLaMA、MiniGPT4-Video、Video-Chat2 和 GPT-4 omni(GPT-4o)——在猪仔活动理解方面的性能。通过从计数、角色指代、语义对应、时间感知和鲁棒性五个维度进行全面评估,我们发现当前的多模态大语言模型在语义对应和时间感知方面仍需改进,但已初步展示了用于动物活动识别的视觉感知能力。值得注意的是,GPT-4o 表现突出,Video-Chat2 和 GPT-4o 在特写视频片段中表现出显著更好的语义对应和时间感知能力,相比之下全景视频片段的表现则较差。本研究的初步评估实验验证了多模态大语言模型在畜牧业场景视频理解中的潜力,并为未来关于动物行为视频理解的研究提供了新的方向和参考。此外,通过深入探讨视觉提示对多模态大语言模型的影响,我们期望通过人类视觉处理方法提高畜牧业场景中动物行为识别的准确性和效率。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| mmr-total-on-mrr-benchmark | GPT-4o | Total Column Score: 457 |
| zero-shot-video-question-answer-on-video-mme | GPT-4o mini | Accuracy (%): 62.3 |
| zero-shot-video-question-answer-on-video-mme | GPT-4o | Accuracy (%): 70.3 |
| zero-shot-video-question-answer-on-video-mme-1 | GPT-4o mini | Accuracy (%): 68.9 |
| zero-shot-video-question-answer-on-video-mme-1 | GPT-4o | Accuracy (%): 77.2 |
| zero-shot-video-question-answer-on-zero-shot | GPT-4o | Accuracy (% ): 64.0 |