Command Palette
Search for a command to run...
强化学习 Reinforcement Learning
日期
Search for a command to run...
日期
强化学习是机器学习的重要分支,也是多学科领域的交叉产物,其本质是解决 Decision Making 问题,即实现自动决策且可做连续决策。
强化学习主要包含四个元素:Agent 、环境状态、行为、奖励,其目标是获得最多的累计奖励。
从元素的角度进行分类,方法主要有以下几种:
Search for a command to run...
日期
强化学习是机器学习的重要分支,也是多学科领域的交叉产物,其本质是解决 Decision Making 问题,即实现自动决策且可做连续决策。
强化学习主要包含四个元素:Agent 、环境状态、行为、奖励,其目标是获得最多的累计奖励。
从元素的角度进行分类,方法主要有以下几种:
GTR 能在复杂视觉环境中引导模型推理,防止「思维崩溃」
一种将训练数据保留在本地设备,仅通过汇总本地计算的模型更新来训练共享全局模型的去中心化机器学习方法 。
LWD 是一种舰队级离线到在线强化学习框架,使通用机器人持续收集经验并实现策略的自我进化。
MVP 通过建模平均速度场,实现兼具高表达能力与计算极速的单步动作生成。
Skills 是封装知识与流程的可复用能力模块,使 AI 从通用模型转变为专业智能体
单智能体架构是由一个智能体统一完成任务理解、决策与执行的 AI 系统结构
多智能体架构是多个智能体分工协作完成复杂任务的人工智能系统结构
智能体记忆是用于存储与检索信息的机制,使智能体系统能够保持上下文并积累经验
PRGS 显著增强了离线强化学习模型拼接高回报经验的能力 。
GTR 能在复杂视觉环境中引导模型推理,防止「思维崩溃」
一种将训练数据保留在本地设备,仅通过汇总本地计算的模型更新来训练共享全局模型的去中心化机器学习方法 。
LWD 是一种舰队级离线到在线强化学习框架,使通用机器人持续收集经验并实现策略的自我进化。
MVP 通过建模平均速度场,实现兼具高表达能力与计算极速的单步动作生成。
Skills 是封装知识与流程的可复用能力模块,使 AI 从通用模型转变为专业智能体
单智能体架构是由一个智能体统一完成任务理解、决策与执行的 AI 系统结构
多智能体架构是多个智能体分工协作完成复杂任务的人工智能系统结构
智能体记忆是用于存储与检索信息的机制,使智能体系统能够保持上下文并积累经验
PRGS 显著增强了离线强化学习模型拼接高回报经验的能力 。