4 个月前

CAT:增强多模态大语言模型以应对动态音视频场景中的问题回答

CAT:增强多模态大语言模型以应对动态音视频场景中的问题回答

摘要

本文重点关注在由丰富而复杂的动态音视频组件构成的场景中回答问题所面临的挑战。尽管现有的多模态大语言模型(MLLMs)能够对音视频内容作出响应,但这些响应有时存在模糊性,无法准确描述特定的音视频事件。为了解决这一局限性,我们引入了CAT模型,该模型通过以下三种方式增强MLLM:1) 除了直接连接音频和视频外,我们设计了一个线索聚合器,用于在动态音视频场景中聚合与问题相关的信息线索,以丰富大语言模型所需的详细知识。2) CAT在一个混合多模态数据集上进行训练,从而可以直接应用于音视频场景。值得注意的是,我们收集了一个名为AVinstruct的音视频联合指令数据集,进一步增强了CAT建模跨语义关联的能力。3) 我们提出了一种人工智能辅助的模糊意识直接偏好优化策略(AI-assisted ambiguity-aware direct preference optimization),专门用于重新训练模型以偏好非模糊响应,并提高其定位特定音视频对象的能力。大量的实验结果表明,CAT在多模态任务中优于现有方法,特别是在音视频问答(AVQA)任务中表现突出。代码和收集到的指令已发布在https://github.com/rikeilong/Bay-CAT。

代码仓库

rikeilong/bay-cat
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-based-generative-performanceCAT-7B
Consistency: 2.89
Contextual Understanding: 3.49
Correctness of Information: 3.08
Detail Orientation: 2.95
Temporal Understanding: 2.81
mean: 3.07
zeroshot-video-question-answer-on-activitynetCAT-7B
Accuracy: 50.2
Confidence Score: 3.5
zeroshot-video-question-answer-on-msrvtt-qaCAT-7B
Accuracy: 62.1
Confidence Score: 3.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CAT:增强多模态大语言模型以应对动态音视频场景中的问题回答 | 论文 | HyperAI超神经