
摘要
观看专家示范是人类与机器人推理未知物体功能属性(affordances)的重要方式。本文研究通过示范视频的特征嵌入来推理物体功能属性的问题。为此,我们提出了一种名为Demo2Vec的模型,该模型能够学习提取示范视频的嵌入向量,并在目标图像上预测同一物体的交互区域与动作类别标签。为支持该研究,我们构建了面向功能属性的在线产品评论数据集(Online Product Review dataset for Affordance, OPRA),通过收集并标注多样化的YouTube产品评测视频而得。实验结果表明,所提出的Demo2Vec模型在所构建数据集上的表现优于多种循环神经网络(Recurrent Neural Network)基线模型。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-to-image-affordance-grounding-on-opra | Demo2Vec | KLD: 2.34 Top-1 Action Accuracy: 40.79 |
| video-to-image-affordance-grounding-on-opra-1 | Demo2Vec | AUC-J: 0.85 KLD: 1.20 SIM: 0.48 |