HyperAI超神经

摘要

深度Q网络（Deep Q Network, DQN）首次通过将深度学习（Deep Learning, DL）与强化学习（Reinforcement Learning, RL）相结合，开启了深度强化学习（Deep Reinforcement Learning, DRL）的大门。DQN敏锐地注意到，在训练过程中所获取数据的分布会动态变化。该方法识别出这一特性可能引发训练不稳定性，因而提出了一系列有效机制以缓解其负面影响。然而，与以往聚焦于该特性的不利影响不同，我们发现：对于强化学习而言，关键在于缩小估计数据分布与真实数据分布之间的差距——而监督学习（Supervised Learning, SL）则无法实现这一点。基于这一全新的视角，我们对强化学习的基本范式——广义策略迭代（Generalized Policy Iteration, GPI）——进行了拓展，提出了一种更为通用的框架，称为广义数据分布迭代（Generalized Data Distribution Iteration, GDI）。我们发现，大量现有的强化学习算法与技术均可被统一纳入GDI框架之下，GPI可视为GDI的一个特例。本文提供了理论证明，阐明了GDI相较于GPI的优势所在及其内在工作机制。基于GDI框架，我们进一步提出了若干实用性强的算法，以验证其有效性与广泛适用性。大量实证实验表明，我们的方法在雅达利学习环境（Arcade Learning Environment, ALE）上取得了当前最先进的性能：在仅使用2亿次训练帧的前提下，平均人类归一化得分（Mean Human Normalized Score, HNS）达到9620.98%，中位数HNS达1146.39%，并实现了22项人类世界纪录的突破（Human World Record Breakthroughs, HWRB）。本研究旨在推动强化学习研究迈向突破人类极限的新阶段，致力于在性能与效率双重维度上探索真正具备超人类能力的智能体。

摘要

Jiajun Fan Changnan Xiao Yue Huang

摘要

用 AI 构建 AI

HyperAI Newsletters

Jiajun Fan Changnan Xiao Yue Huang

摘要

用 AI 构建 AI

HyperAI Newsletters

Jiajun Fan Changnan Xiao Yue Huang

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

GDI：重新思考强化学习与监督学习的本质差异

Jiajun Fan Changnan Xiao Yue Huang

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

GDI：重新思考强化学习与监督学习的本质差异

Jiajun Fan Changnan Xiao Yue Huang

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

GDI：重新思考强化学习与监督学习的本质差异

Jiajun Fan Changnan Xiao Yue Huang

摘要

用 AI 构建 AI

HyperAI Newsletters