3 个月前

面向第一人称程序性任务视频的进度感知在线动作分割

面向第一人称程序性任务视频的进度感知在线动作分割

摘要

我们针对第一人称视角程序性任务视频的在线动作分割问题提出解决方案。尽管以往研究主要集中在离线动作分割任务上,即在训练和推理阶段均可访问完整的视频序列,但向在线动作分割的过渡对于增强现实(AR)/虚拟现实(VR)任务助手等实际应用场景至关重要。值得注意的是,若直接将离线训练的模型用于在线推理,由于训练与推理阶段在数据可观测性上的不一致性,会导致性能显著下降。为此,我们提出一种新型在线动作分割框架:首先,对现有模型架构进行改造,使其具备因果性(causal),以适应在线推理中仅能访问当前及历史信息的限制;其次,设计了一种新颖的动作进展预测模块,用于动态估计当前正在进行动作的进展状态,并利用该进展信息对因果动作分割结果进行优化与修正;第三,我们提出从训练视频中学习任务图(task graph),并借助任务图实现平滑且符合流程逻辑的动作分割。通过将动作进展预测与任务图信息与因果动作分割相结合,本框架有效缓解了在线动作分割中的预测不确定性与过度分割问题,在三个第一人称视角数据集上均取得了显著的性能提升。

基准测试

基准方法指标
action-segmentation-on-assembly101ProTAS(Offline)
Edit: 29.2
F1@10%: 28.7
F1@25%: 24.4
F1@50%: 17.5
MoF: 34.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向第一人称程序性任务视频的进度感知在线动作分割 | 论文 | HyperAI超神经