6 个月前

摘要

基于模型的强化学习方法通过在动态模型中促进策略探索，为提升数据效率提供了有前景的途径。然而，由于采用自举式预测（bootstrapping prediction）——即当前状态的预测结果被用于推断下一状态——导致动态模型在多步预测过程中难以准确捕捉序列变化，进而引发误差累积问题。为缓解这一挑战，本文提出任意步长动态模型（Any-step Dynamics Model, ADM），通过将自举式预测降为直接预测，有效抑制了误差的累积。ADM支持以可变长度的计划（plan）作为输入，直接预测未来状态，从而减少对频繁自举的依赖。基于ADM，我们设计了两种算法：ADMPO-ON与ADMPO-OFF，分别应用于在线与离线的基于模型强化学习框架。在在线设置下，ADMPO-ON相较于以往最先进方法展现出更优的样本效率；在离线设置下，ADMPO-OFF不仅在性能上优于近期最先进的离线方法，且仅需单一ADM即可实现对模型不确定性的更优量化。

源 PDF 查看代码