3 个月前

RoboLLM:基于多模态大语言模型的机器人视觉任务

RoboLLM:基于多模态大语言模型的机器人视觉任务

摘要

机器人视觉应用通常需要执行多种视觉感知任务,例如目标检测、分割与识别等。尽管这些单项任务近年来取得了显著进展,但将专用模型整合进统一的视觉处理流程仍面临重大的工程挑战与成本压力。近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)作为下游任务的新一代骨干架构崭露头角。我们认为,利用MLLM在大规模预训练中所具备的泛化能力,能够构建一个简化的统一框架,从而避免为不同任务设计专用编码器的复杂性。具体而言,MLLM中蕴含的大规模预训练知识使其在微调至下游机器人视觉任务时更为便捷,并能实现更优的性能表现。为此,我们提出了RoboLLM框架,采用BEiT-3作为主干网络,全面应对ARMBench挑战赛中的各类视觉感知任务——该挑战赛基于真实仓库场景的大型机器人操作数据集。实验结果表明,RoboLLM不仅显著优于现有基线方法,还大幅降低了模型选型与调优带来的工程负担。相关源代码已公开,地址为:https://github.com/longkukuhi/armbench。

代码仓库

longkukuhi/armbench
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
instance-segmentation-on-armbenchRoboLLM (VIT-B)
AP50: 82.0
AP75: 74

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RoboLLM:基于多模态大语言模型的机器人视觉任务 | 论文 | HyperAI超神经