日期

3 年前

强化学习是机器学习的重要分支，也是多学科领域的交叉产物，其本质是解决 Decision Making 问题，即实现自动决策且可做连续决策。

强化学习主要包含四个元素：Agent 、环境状态、行为、奖励，其目标是获得最多的累计奖励。

强化学习分类

从元素的角度进行分类，方法主要有以下几种：

Policy based：关注点是找到最优策略；
Value based：关注点是找到最优奖励总和；
Action based：关注点是每一步的最优行动。

父级词：机器学习

思维引导的强化学习框架 Guided Thought Reinforcement

GTR 能在复杂视觉环境中引导模型推理，防止「思维崩溃」

2 个月前

联邦学习 Federated Learning

一种将训练数据保留在本地设备，仅通过汇总本地计算的模型更新来训练共享全局模型的去中心化机器学习方法。

2 个月前

部署中学习 Learning While Deploying

LWD 是一种舰队级离线到在线强化学习框架，使通用机器人持续收集经验并实现策略的自我进化。

2 个月前

均值速度策略 MVP

MVP 通过建模平均速度场，实现兼具高表达能力与计算极速的单步动作生成。

3 个月前

世界动作模型 WAM

WAM 是一种面向具身智能与机器人领域的新型 AI 基础模型架构。

1 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

3 年前

强化学习是机器学习的重要分支，也是多学科领域的交叉产物，其本质是解决 Decision Making 问题，即实现自动决策且可做连续决策。

强化学习主要包含四个元素：Agent 、环境状态、行为、奖励，其目标是获得最多的累计奖励。

强化学习分类

从元素的角度进行分类，方法主要有以下几种：

Policy based：关注点是找到最优策略；
Value based：关注点是找到最优奖励总和；
Action based：关注点是每一步的最优行动。

父级词：机器学习

思维引导的强化学习框架 Guided Thought Reinforcement

GTR 能在复杂视觉环境中引导模型推理，防止「思维崩溃」

2 个月前

联邦学习 Federated Learning

一种将训练数据保留在本地设备，仅通过汇总本地计算的模型更新来训练共享全局模型的去中心化机器学习方法。

2 个月前

部署中学习 Learning While Deploying

LWD 是一种舰队级离线到在线强化学习框架，使通用机器人持续收集经验并实现策略的自我进化。

2 个月前

均值速度策略 MVP

MVP 通过建模平均速度场，实现兼具高表达能力与计算极速的单步动作生成。

3 个月前

世界动作模型 WAM

WAM 是一种面向具身智能与机器人领域的新型 AI 基础模型架构。

1 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

强化学习分类

父级词：机器学习

用 AI 构建 AI

HyperAI Newsletters

强化学习分类

父级词：机器学习

相关百科

思维引导的强化学习框架 Guided Thought Reinforcement

联邦学习 Federated Learning

部署中学习 Learning While Deploying

均值速度策略 MVP

世界动作模型 WAM

用 AI 构建 AI

HyperAI Newsletters

强化学习分类

父级词：机器学习

相关百科

思维引导的强化学习框架 Guided Thought Reinforcement

联邦学习 Federated Learning

部署中学习 Learning While Deploying

均值速度策略 MVP

世界动作模型 WAM

用 AI 构建 AI

HyperAI Newsletters

相关百科

思维引导的强化学习框架 Guided Thought Reinforcement

联邦学习 Federated Learning

部署中学习 Learning While Deploying

均值速度策略 MVP

世界动作模型 WAM

相关百科

思维引导的强化学习框架 Guided Thought Reinforcement

联邦学习 Federated Learning

部署中学习 Learning While Deploying

均值速度策略 MVP

世界动作模型 WAM

Command Palette

强化学习 Reinforcement Learning

强化学习分类

父级词：机器学习

用 AI 构建 AI

HyperAI Newsletters

Command Palette

强化学习 Reinforcement Learning

强化学习分类

父级词：机器学习

相关百科

思维引导的强化学习框架 Guided Thought Reinforcement

联邦学习 Federated Learning

部署中学习 Learning While Deploying

均值速度策略 MVP

世界动作模型 WAM

用 AI 构建 AI

HyperAI Newsletters

Command Palette

强化学习 Reinforcement Learning

强化学习分类

父级词：机器学习

相关百科

思维引导的强化学习框架 Guided Thought Reinforcement

联邦学习 Federated Learning

部署中学习 Learning While Deploying

均值速度策略 MVP

世界动作模型 WAM

用 AI 构建 AI

HyperAI Newsletters

相关百科

思维引导的强化学习框架 Guided Thought Reinforcement

联邦学习 Federated Learning

部署中学习 Learning While Deploying

均值速度策略 MVP

世界动作模型 WAM

相关百科

思维引导的强化学习框架 Guided Thought Reinforcement

联邦学习 Federated Learning

部署中学习 Learning While Deploying

均值速度策略 MVP

世界动作模型 WAM