8 个月前

多模态表征

计算机视觉

Wei Lin†1 Leonid Karlinsky2 Nina Shvetsova3 Horst Possegger1 Mateusz Kozinski1 Rameswar Panda2 Rogerio Feris2 Hilde Kuehne2,3 Horst Bischof1

摘要

大规模视觉-语言（VL）模型在对齐视觉和文本模态的表示方面取得了巨大成功。这使得在零样本识别、图像生成与编辑以及许多其他令人兴奋的任务上取得了显著进展。然而，VL模型往往过度关注对象，而对动词的关注较少，并且为了实现最佳的零样本动作识别性能，需要在视频数据上进行额外的微调。以往的研究依赖于大规模、完全注释的数据集，而在本研究中，我们提出了一种无监督方法。我们通过收集未标注的视频和一个未配对的动作词典，来适应VL模型以实现零样本和少样本动作识别。基于此，我们利用大型语言模型和VL模型，通过匹配、文本扩展和字幕生成为每个未标注的视频构建一个文本包。我们在多实例学习框架下使用这些文本包，将图像-文本骨干网络适应到视频数据上。尽管是在未标注的视频数据上进行了微调，但我们的最终模型展示了向众多未见过的零样本下游任务的高度迁移能力，相较于基础VL模型性能提升了高达14%，并且在零样本和少样本视频识别迁移任务中甚至可以与完全监督基线相媲美。代码将在稍后发布于 \url{https://github.com/wlin-at/MAXI}。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Wei Lin†1 Leonid Karlinsky2 Nina Shvetsova3 Horst Possegger1 Mateusz Kozinski1 Rameswar Panda2 Rogerio Feris2 Hilde Kuehne2,3 Horst Bischof1

摘要

大规模视觉-语言（VL）模型在对齐视觉和文本模态的表示方面取得了巨大成功。这使得在零样本识别、图像生成与编辑以及许多其他令人兴奋的任务上取得了显著进展。然而，VL模型往往过度关注对象，而对动词的关注较少，并且为了实现最佳的零样本动作识别性能，需要在视频数据上进行额外的微调。以往的研究依赖于大规模、完全注释的数据集，而在本研究中，我们提出了一种无监督方法。我们通过收集未标注的视频和一个未配对的动作词典，来适应VL模型以实现零样本和少样本动作识别。基于此，我们利用大型语言模型和VL模型，通过匹配、文本扩展和字幕生成为每个未标注的视频构建一个文本包。我们在多实例学习框架下使用这些文本包，将图像-文本骨干网络适应到视频数据上。尽管是在未标注的视频数据上进行了微调，但我们的最终模型展示了向众多未见过的零样本下游任务的高度迁移能力，相较于基础VL模型性能提升了高达14%，并且在零样本和少样本视频识别迁移任务中甚至可以与完全监督基线相媲美。代码将在稍后发布于 \url{https://github.com/wlin-at/MAXI}。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供