8 个月前

计算机视觉

Anna Kukleva Hilde Kuehne Fadime Sener Juergen Gall

摘要

近期，对未剪辑视频中动作的时间检测与分割任务引起了越来越多的关注。在此背景下，一个主要问题是如何定义和标注动作边界以创建用于训练的注释，这需要耗费大量时间和成本。为了解决这一问题，我们提出了一种无监督方法，用于从未剪辑的视频序列中学习动作类别。为此，我们利用了帧级特征的连续时间嵌入（continuous temporal embedding），从而充分利用活动的顺序性质。基于嵌入所生成的潜在空间（latent space），我们在所有视频中识别出对应于语义上有意义的动作类别的时间片段聚类（clusters of temporal segments）。该方法在三个具有挑战性的数据集上进行了评估，分别是Breakfast数据集、YouTube Instructions数据集和50Salads数据集。尽管以往的研究假设视频包含相同高层次的活动，我们进一步展示了所提出的这种方法还可以应用于更为一般的情况，即视频内容未知的情形。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Anna Kukleva Hilde Kuehne Fadime Sener Juergen Gall

摘要

近期，对未剪辑视频中动作的时间检测与分割任务引起了越来越多的关注。在此背景下，一个主要问题是如何定义和标注动作边界以创建用于训练的注释，这需要耗费大量时间和成本。为了解决这一问题，我们提出了一种无监督方法，用于从未剪辑的视频序列中学习动作类别。为此，我们利用了帧级特征的连续时间嵌入（continuous temporal embedding），从而充分利用活动的顺序性质。基于嵌入所生成的潜在空间（latent space），我们在所有视频中识别出对应于语义上有意义的动作类别的时间片段聚类（clusters of temporal segments）。该方法在三个具有挑战性的数据集上进行了评估，分别是Breakfast数据集、YouTube Instructions数据集和50Salads数据集。尽管以往的研究假设视频包含相同高层次的活动，我们进一步展示了所提出的这种方法还可以应用于更为一般的情况，即视频内容未知的情形。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供