8 个月前

多任务学习

统一多模态

Kevin Qinghong Lin Pengchuan Zhang Joya Chen Shraman Pramanick Difei Gao Alex Jinpeng Wang Rui Yan Mike Zheng Shou

摘要

视频时间定位（VTG）旨在根据自定义语言查询（如句子或单词）从视频中定位目标片段（例如连续区间或不相连的镜头），对于社交媒体上的视频浏览至关重要。目前大多数方法都开发了特定任务的模型，这些模型使用特定类型的标签进行训练，例如时刻检索（时间区间）和亮点检测（价值曲线），这限制了它们在各种VTG任务和标签中的泛化能力。本文中，我们提出了一个统一的多样化VTG标签和任务的方法，称为UniVTG，沿着三个方向展开：首先，我们重新审视了广泛范围内的VTG标签和任务，并定义了一个统一的公式。基于此，我们开发了数据注释方案以创建可扩展的伪监督。其次，我们开发了一种有效且灵活的时间定位模型，该模型能够应对每个任务并充分利用每个标签。最后，得益于统一框架，我们能够从大规模多样化的标签中解锁时间定位预训练，并发展更强的时间定位能力，例如零样本定位。我们在三个任务（时刻检索、亮点检测和视频摘要）上进行了广泛的实验，涉及七个数据集（QVHighlights、Charades-STA、TACoS、Ego4D、YouTube Highlights、TVSum 和 QFVS），结果证明了所提出框架的有效性和灵活性。代码已发布在 https://github.com/showlab/UniVTG。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多任务学习

统一多模态

Kevin Qinghong Lin Pengchuan Zhang Joya Chen Shraman Pramanick Difei Gao Alex Jinpeng Wang Rui Yan Mike Zheng Shou

摘要

视频时间定位（VTG）旨在根据自定义语言查询（如句子或单词）从视频中定位目标片段（例如连续区间或不相连的镜头），对于社交媒体上的视频浏览至关重要。目前大多数方法都开发了特定任务的模型，这些模型使用特定类型的标签进行训练，例如时刻检索（时间区间）和亮点检测（价值曲线），这限制了它们在各种VTG任务和标签中的泛化能力。本文中，我们提出了一个统一的多样化VTG标签和任务的方法，称为UniVTG，沿着三个方向展开：首先，我们重新审视了广泛范围内的VTG标签和任务，并定义了一个统一的公式。基于此，我们开发了数据注释方案以创建可扩展的伪监督。其次，我们开发了一种有效且灵活的时间定位模型，该模型能够应对每个任务并充分利用每个标签。最后，得益于统一框架，我们能够从大规模多样化的标签中解锁时间定位预训练，并发展更强的时间定位能力，例如零样本定位。我们在三个任务（时刻检索、亮点检测和视频摘要）上进行了广泛的实验，涉及七个数据集（QVHighlights、Charades-STA、TACoS、Ego4D、YouTube Highlights、TVSum 和 QFVS），结果证明了所提出框架的有效性和灵活性。代码已发布在 https://github.com/showlab/UniVTG。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供