6 个月前

摘要

复杂系统物理模型识别的困难，促使研究者探索不依赖于复杂系统建模的方法。深度强化学习（Deep Reinforcement Learning, DRL）作为该领域的先驱，通过仅与系统交互即可解决此类问题，而无需依赖系统的物理模型。然而，其采用黑箱学习机制，缺乏对模型所采取动作的可解释性，难以在现实世界中对安全性要求极高的系统中直接应用。此外，深度强化学习领域仍存在一个开放性研究问题：如何在稀疏决策空间中聚焦关键决策的策略学习。本文提出了一种面向安全关键系统的新方法——基于行为克隆的协同强化学习架构（Behavior Cloning-based Synchronized Reinforcement Learning Architecture, BC-SRLA）。该方法融合了概率建模与强化学习的优势，同时具备良好的可解释性，并能与传统决策策略协同工作、同步运行。BC-SRLA在由概率模型与强化学习融合信息自主识别出的特定情境下被激活，例如异常工况或系统接近失效状态时。此外，该方法采用策略克隆（Policy Cloning）技术初始化基线策略，从而最大限度减少与环境的交互次数，有效应对在安全关键行业中应用强化学习所面临的挑战。通过在涡扇发动机维护场景中的案例研究，验证了BC-SRLA的有效性，结果表明其性能优于现有技术及其他基线方法。

源 PDF