4 个月前

CarLLaVA:仅使用摄像头的闭环驾驶视觉语言模型

CarLLaVA:仅使用摄像头的闭环驾驶视觉语言模型

摘要

在本技术报告中,我们介绍了CarLLaVA,这是一种为CARLA自动驾驶挑战赛2.0开发的视觉语言模型(VLM),用于自动驾驶。CarLLaVA采用了LLaVA VLM的视觉编码器和LLaMA架构作为主干,仅通过摄像头输入且无需复杂或昂贵的标签,实现了最先进的闭环驾驶性能。此外,我们展示了初步结果,即在驾驶输出的同时预测语言评论。CarLLaVA使用了一种半解耦的输出表示方法,包括路径预测和航路点(waypoints),从而在横向控制上利用路径的优势,在纵向控制上利用航路点的优势。我们提出了一种高效的训练方案,可以在大型驾驶数据集上进行训练而不会在简单、平凡的数据上浪费计算资源。CarLLaVA在CARLA自动驾驶挑战赛2.0的传感器赛道中排名第一,比之前的最先进水平提高了458%,比同期最佳提交方案提高了32.6%。

代码仓库

基准测试

基准方法指标
bench2drive-on-bench2driveSimLingo-Base (CarLLaVa)
Driving Score: 85.94
carla-leaderboard-2-0-on-carlaCarLLaVA
Driving Score: 6.87
Infraction Score: 0.42
Route Completion: 18.08
carla-leaderboard-2-0-on-carlaCarLLaVA (Map Track)
Driving Score: 6.25
Infraction Score: 0.39
Route Completion: 18.89

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CarLLaVA:仅使用摄像头的闭环驾驶视觉语言模型 | 论文 | HyperAI超神经