8 个月前

多模态表征

统一多模态

Peng Jin Ryuichi Takanobu Wancai Zhang Xiaochun Cao Li Yuan

摘要

大型语言模型在广泛的开放性任务中展示了令人印象深刻的通用能力，并将其应用范围扩展到了多模态对话。然而，现有的方法在有效处理图像和视频理解方面遇到了挑战，尤其是在视觉标记数量有限的情况下。在这项工作中，我们引入了Chat-UniVi，这是一种统一的视觉-语言模型，能够通过统一的视觉表示来理解和参与涉及图像和视频的对话。具体而言，我们使用一组动态视觉标记来统一表示图像和视频。该表示框架使模型能够高效地利用有限数量的视觉标记，同时捕捉图像所需的空间细节和视频所需的全面时间关系。此外，我们采用了多尺度表示方法，使模型能够感知高层次的语义概念和低层次的视觉细节。值得注意的是，Chat-UniVi是在包含图像和视频的混合数据集上训练的，这使得它可以无需任何修改直接应用于涉及这两种媒介的任务。大量的实验结果表明，Chat-UniVi在性能上始终优于专门为图像或视频设计的现有方法。代码可在https://github.com/PKU-YuanGroup/Chat-UniVi 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

统一多模态

Peng Jin Ryuichi Takanobu Wancai Zhang Xiaochun Cao Li Yuan

摘要

大型语言模型在广泛的开放性任务中展示了令人印象深刻的通用能力，并将其应用范围扩展到了多模态对话。然而，现有的方法在有效处理图像和视频理解方面遇到了挑战，尤其是在视觉标记数量有限的情况下。在这项工作中，我们引入了Chat-UniVi，这是一种统一的视觉-语言模型，能够通过统一的视觉表示来理解和参与涉及图像和视频的对话。具体而言，我们使用一组动态视觉标记来统一表示图像和视频。该表示框架使模型能够高效地利用有限数量的视觉标记，同时捕捉图像所需的空间细节和视频所需的全面时间关系。此外，我们采用了多尺度表示方法，使模型能够感知高层次的语义概念和低层次的视觉细节。值得注意的是，Chat-UniVi是在包含图像和视频的混合数据集上训练的，这使得它可以无需任何修改直接应用于涉及这两种媒介的任务。大量的实验结果表明，Chat-UniVi在性能上始终优于专门为图像或视频设计的现有方法。代码可在https://github.com/PKU-YuanGroup/Chat-UniVi 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Chat-UniVi：统一视觉表示赋予大型语言模型图像和视频理解能力 | 论文 | HyperAI超神经