3 个月前

任意步长动态模型提升在线与离线强化学习中的未来预测性能

任意步长动态模型提升在线与离线强化学习中的未来预测性能

摘要

基于模型的强化学习方法通过在动态模型中促进策略探索,为提升数据效率提供了有前景的途径。然而,由于采用自举式预测(bootstrapping prediction)——即当前状态的预测结果被用于推断下一状态——导致动态模型在多步预测过程中难以准确捕捉序列变化,进而引发误差累积问题。为缓解这一挑战,本文提出任意步长动态模型(Any-step Dynamics Model, ADM),通过将自举式预测降为直接预测,有效抑制了误差的累积。ADM支持以可变长度的计划(plan)作为输入,直接预测未来状态,从而减少对频繁自举的依赖。基于ADM,我们设计了两种算法:ADMPO-ON与ADMPO-OFF,分别应用于在线与离线的基于模型强化学习框架。在在线设置下,ADMPO-ON相较于以往最先进方法展现出更优的样本效率;在离线设置下,ADMPO-OFF不仅在性能上优于近期最先进的离线方法,且仅需单一ADM即可实现对模型不确定性的更优量化。

代码仓库

HxLyn3/ADMPO
官方
pytorch

基准测试

基准方法指标
offline-rl-on-d4rlADMPO
Average Reward: 81

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
任意步长动态模型提升在线与离线强化学习中的未来预测性能 | 论文 | HyperAI超神经