8 个月前

多模态表征

计算机视觉

Tongjia Chen Hongshan Yu Zhengeng Yang Zechuan Li Wei Sun Chen Chen

摘要

由于在大规模视频数据上训练视觉-语言模型需要大量资源，大多数研究都集中在将预训练的图像-语言模型适应到视频领域。主流的方法建议通过增加额外的时间学习模块来解决视觉差异，而忽视了网络规模描述性叙述与简洁的动作类别名称之间的显著差异，这导致了类别名称的语义空间不够明确，并可能限制性能。在这项工作中，我们优先改进文本知识以促进可泛化的视频识别。为了解决类别名称语义空间不明确的问题，我们提示一个大型语言模型（LLM）将动作类名称扩展为时空描述符，从而弥合文本差异并作为一般识别的知识库。此外，为了为不同的视频实例分配最佳描述符，我们提出了最优描述符求解器（Optimal Descriptor Solver），将视频识别问题转化为在帧级表示和描述符之间求解最优匹配流的问题。零样本、少样本和全监督视频识别的全面评估突显了我们方法的有效性。我们的最佳模型在 Kinetics-600 数据集上实现了 75.1% 的最先进的零样本准确率。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Tongjia Chen Hongshan Yu Zhengeng Yang Zechuan Li Wei Sun Chen Chen

摘要

由于在大规模视频数据上训练视觉-语言模型需要大量资源，大多数研究都集中在将预训练的图像-语言模型适应到视频领域。主流的方法建议通过增加额外的时间学习模块来解决视觉差异，而忽视了网络规模描述性叙述与简洁的动作类别名称之间的显著差异，这导致了类别名称的语义空间不够明确，并可能限制性能。在这项工作中，我们优先改进文本知识以促进可泛化的视频识别。为了解决类别名称语义空间不明确的问题，我们提示一个大型语言模型（LLM）将动作类名称扩展为时空描述符，从而弥合文本差异并作为一般识别的知识库。此外，为了为不同的视频实例分配最佳描述符，我们提出了最优描述符求解器（Optimal Descriptor Solver），将视频识别问题转化为在帧级表示和描述符之间求解最优匹配流的问题。零样本、少样本和全监督视频识别的全面评估突显了我们方法的有效性。我们的最佳模型在 Kinetics-600 数据集上实现了 75.1% 的最先进的零样本准确率。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供