4 个月前

打开自我中心行为的词汇库

打开自我中心行为的词汇库

摘要

在以自我为中心的视频中,人类行为通常是由手与物体的互动组成,这些互动由一个动词(由手执行)应用于某个物体。尽管以自我为中心的数据集已经大规模扩展,但仍面临两个限制——行为组合的稀疏性和交互对象的封闭集合。本文提出了一种新颖的开放词汇表行为识别任务。给定一组在训练过程中观察到的动词和物体,目标是将这些动词泛化到包含已见和新物体的开放词汇表行为中。为此,我们通过一个与物体无关的动词编码器和一个基于提示的物体编码器来解耦动词和物体预测。提示机制利用CLIP表示来预测开放词汇表中的交互对象。我们在EPIC-KITCHENS-100和Assembly101数据集上创建了开放词汇表基准;而封闭动作方法无法泛化,我们提出的方法则表现出有效性。此外,我们的物体编码器在识别新交互对象方面显著优于现有的开放词汇表视觉识别方法。

代码仓库

dibschat/openvocab-egoAR
官方
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
打开自我中心行为的词汇库 | 论文 | HyperAI超神经