8 个月前

机器人技术

多模态表征

Wentao Yuan Jiafei Duan Vals Blukis Wilbert Pumacay Ranjay Krishna Adithyavairavan Murali Arshalan Mousavian Dieter Fox

摘要

从在桌面上重新排列物体到将杂货放入货架，机器人必须规划精确的动作点以准确可靠地完成任务。尽管最近采用了视觉语言模型（VLMs）来控制机器人的行为，但这些模型在使用语言精确描述机器人动作方面仍存在困难。我们介绍了一种自动合成数据生成管道，该管道可以针对机器人领域的特定需求对VLMs进行指令调优。利用这一管道，我们训练了RoboPoint模型，这是一种给定语言指令即可预测图像关键点可操作性的视觉语言模型。与替代方法相比，我们的方法无需收集真实世界的数据或人类演示，这使得它在不同环境和视角下更具扩展性。此外，RoboPoint是一种通用模型，支持多种下游应用，如机器人导航、操作和增强现实（AR）辅助。实验结果表明，RoboPoint在预测空间可操作性的准确性上比最先进的视觉语言模型（GPT-4o）和视觉提示技术（PIVOT）高出21.8%，在下游任务的成功率上高出30.5%。项目网站：https://robo-point.github.io。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

机器人技术

多模态表征

Wentao Yuan Jiafei Duan Vals Blukis Wilbert Pumacay Ranjay Krishna Adithyavairavan Murali Arshalan Mousavian Dieter Fox

摘要

从在桌面上重新排列物体到将杂货放入货架，机器人必须规划精确的动作点以准确可靠地完成任务。尽管最近采用了视觉语言模型（VLMs）来控制机器人的行为，但这些模型在使用语言精确描述机器人动作方面仍存在困难。我们介绍了一种自动合成数据生成管道，该管道可以针对机器人领域的特定需求对VLMs进行指令调优。利用这一管道，我们训练了RoboPoint模型，这是一种给定语言指令即可预测图像关键点可操作性的视觉语言模型。与替代方法相比，我们的方法无需收集真实世界的数据或人类演示，这使得它在不同环境和视角下更具扩展性。此外，RoboPoint是一种通用模型，支持多种下游应用，如机器人导航、操作和增强现实（AR）辅助。实验结果表明，RoboPoint在预测空间可操作性的准确性上比最先进的视觉语言模型（GPT-4o）和视觉提示技术（PIVOT）高出21.8%，在下游任务的成功率上高出30.5%。项目网站：https://robo-point.github.io。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供