3 个月前

基于可解释与概率模型的安全强化学习分层框架

基于可解释与概率模型的安全强化学习分层框架

摘要

复杂系统物理模型识别的困难,促使研究者探索不依赖于复杂系统建模的方法。深度强化学习(Deep Reinforcement Learning, DRL)作为该领域的先驱,通过仅与系统交互即可解决此类问题,而无需依赖系统的物理模型。然而,其采用黑箱学习机制,缺乏对模型所采取动作的可解释性,难以在现实世界中对安全性要求极高的系统中直接应用。此外,深度强化学习领域仍存在一个开放性研究问题:如何在稀疏决策空间中聚焦关键决策的策略学习。本文提出了一种面向安全关键系统的新方法——基于行为克隆的协同强化学习架构(Behavior Cloning-based Synchronized Reinforcement Learning Architecture, BC-SRLA)。该方法融合了概率建模与强化学习的优势,同时具备良好的可解释性,并能与传统决策策略协同工作、同步运行。BC-SRLA在由概率模型与强化学习融合信息自主识别出的特定情境下被激活,例如异常工况或系统接近失效状态时。此外,该方法采用策略克隆(Policy Cloning)技术初始化基线策略,从而最大限度减少与环境的交互次数,有效应对在安全关键行业中应用强化学习所面临的挑战。通过在涡扇发动机维护场景中的案例研究,验证了BC-SRLA的有效性,结果表明其性能优于现有技术及其他基线方法。

基准测试

基准方法指标
decision-making-on-nasa-c-mapssSRLA
Average Remaining Cycles: 6.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于可解释与概率模型的安全强化学习分层框架 | 论文 | HyperAI超神经