4 个月前

在代理中创建需求的层次结构

在代理中创建需求的层次结构

摘要

我们提出了一种新颖的方法,用于学习优先考虑竞争目标的层次抽象,从而提高全局预期奖励。该方法采用了一个具有多个标量输出的次级奖励代理(secondary rewarding agent),每个输出对应一个不同的抽象层次。传统代理随后以层次化的方式学习最大化这些输出,每层的优化都以前一层的最大化为条件。我们推导出一个方程,按优先级对这些标量值和全局奖励进行排序,从而形成一种需求层次结构,指导目标的设定。在Pendulum v1环境中的实验结果表明,该方法相比基线实现表现出优越性能,并达到了当前最佳水平。

基准测试

基准方法指标
openai-gym-on-pendulum-v1TLA with Hierarchical Reward Functions
Action Repetition: .8073
Average Decisions: 38.6
Mean Reward: -125.02

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
在代理中创建需求的层次结构 | 论文 | HyperAI超神经