3 个月前

Koopman Q-learning:基于动力学对称性的离线强化学习

Koopman Q-learning:基于动力学对称性的离线强化学习

摘要

离线强化学习利用大规模数据集在不与环境交互的情况下训练策略,所学习到的策略可部署于交互成本高昂或存在危险的真实场景中。然而,当前算法容易对训练数据集过拟合,导致在面对环境分布外的泛化情形时性能显著下降。为解决这一局限,本文提出学习一种Koopman隐变量表征,以推断系统底层动态的对称性。该对称性信息被用于在训练过程中扩展原本静态的离线数据集,从而构建一种新颖的数据增强框架。该框架反映了系统的动态特性,可被理解为对环境相空间的探索。为提取系统对称性,我们采用Koopman理论,将非线性动态在系统观测函数空间中以线性算子的形式进行表示,从而可直接推导出动态的对称性。本文还提供了关于控制类系统(如强化学习场景)中对称性存在性与性质的全新理论结果。此外,我们在多个基准离线强化学习任务与数据集(包括D4RL、MetaWorld和Robosuite)上对所提方法进行了实证评估,结果表明,通过采用本框架,我们能够持续提升无模型Q学习方法的现有技术水平。

基准测试

基准方法指标
d4rl-on-d4rlKFC
Average Reward: 81.8
offline-rl-on-d4rlKFC
Average Reward: 81.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Koopman Q-learning:基于动力学对称性的离线强化学习 | 论文 | HyperAI超神经