4 个月前

从轨道世界学习驾驶

从轨道世界学习驾驶

摘要

我们通过基于模型的方法从预先录制的驾驶日志中学习一种交互式的视觉驱动策略。该方法利用一个世界前向模型来监督驾驶策略,该策略可以预测任何潜在驾驶轨迹的结果。为了支持从预先录制的日志中学习,我们假设这个世界是“轨道上的”,即代理及其行为不会影响环境。这一假设极大地简化了学习问题,将动力学分解为一个非反应性的世界模型和一个低维且紧凑的自车前向模型(ego-vehicle forward model)。我们的方法使用表格动态规划评估贝尔曼方程来计算每个训练轨迹的动作值;这些动作值反过来监督最终的视觉驱动策略。尽管采用了“轨道上的世界”假设,但最终的驾驶策略在动态和反应性的环境中表现良好。截至本文撰写时,我们的方法在CARLA排行榜上排名第一,在使用数据量减少40倍的情况下,驾驶得分提高了25%。此外,我们的方法在ProcGen基准中的导航任务上比最先进的无模型强化学习技术的样本效率高一个数量级。

代码仓库

dotchen/WorldOnRails
官方
GitHub 中提及

基准测试

基准方法指标
autonomous-driving-on-carla-leaderboardWorld on Rails
Driving Score: 31.37
Infraction penalty: 0.56
Route Completion: 57.65
carla-longest6-on-carlaWorld on Rails (WOR)
Driving Score: 21
Infraction Score: 0.56
Route Completion: 48

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从轨道世界学习驾驶 | 论文 | HyperAI超神经