6 个月前

Matthias Weissenbacher Samarth Sinha Animesh Garg Yoshinobu Kawahara

摘要

离线强化学习利用大规模数据集在不与环境交互的情况下训练策略，所学习到的策略可部署于交互成本高昂或存在危险的真实场景中。然而，当前算法容易对训练数据集过拟合，导致在面对环境分布外的泛化情形时性能显著下降。为解决这一局限，本文提出学习一种Koopman隐变量表征，以推断系统底层动态的对称性。该对称性信息被用于在训练过程中扩展原本静态的离线数据集，从而构建一种新颖的数据增强框架。该框架反映了系统的动态特性，可被理解为对环境相空间的探索。为提取系统对称性，我们采用Koopman理论，将非线性动态在系统观测函数空间中以线性算子的形式进行表示，从而可直接推导出动态的对称性。本文还提供了关于控制类系统（如强化学习场景）中对称性存在性与性质的全新理论结果。此外，我们在多个基准离线强化学习任务与数据集（包括D4RL、MetaWorld和Robosuite）上对所提方法进行了实证评估，结果表明，通过采用本框架，我们能够持续提升无模型Q学习方法的现有技术水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Matthias Weissenbacher Samarth Sinha Animesh Garg Yoshinobu Kawahara

摘要

离线强化学习利用大规模数据集在不与环境交互的情况下训练策略，所学习到的策略可部署于交互成本高昂或存在危险的真实场景中。然而，当前算法容易对训练数据集过拟合，导致在面对环境分布外的泛化情形时性能显著下降。为解决这一局限，本文提出学习一种Koopman隐变量表征，以推断系统底层动态的对称性。该对称性信息被用于在训练过程中扩展原本静态的离线数据集，从而构建一种新颖的数据增强框架。该框架反映了系统的动态特性，可被理解为对环境相空间的探索。为提取系统对称性，我们采用Koopman理论，将非线性动态在系统观测函数空间中以线性算子的形式进行表示，从而可直接推导出动态的对称性。本文还提供了关于控制类系统（如强化学习场景）中对称性存在性与性质的全新理论结果。此外，我们在多个基准离线强化学习任务与数据集（包括D4RL、MetaWorld和Robosuite）上对所提方法进行了实证评估，结果表明，通过采用本框架，我们能够持续提升无模型Q学习方法的现有技术水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供