从黑箱走向可解释性:基于热力学仿真辅助随机森林的船舶发动机可解释性诊断技术解析
船舶动力系统的智能运维长期面临着现实而复杂的挑战。在利用数据驱动模型进行故障识别时,如何提升决策逻辑的透明度是研究的重点。
本文将简要介绍 2025 年发表在《Measurement》上的一篇论文——Thermodynamic simulation-assisted random forest: Towards explainable fault diagnosis of combustion chamber components of marine diesel engines。该论文研究探讨了如何结合热力学仿真来改善随机森林模型的可解释性,为船舶智能运维提供了一些思路。
一、现状分析:当前诊断技术的实际限制
在探讨热力学仿真辅助随机森林(Thermodynamic simulation-assisted random forest,TSRF) 框架之前,我们需客观审视船舶动力系统在故障识别中遇到的现实问题:
(1)样本类别不均衡:受限于设备的高可靠性,实际运维中产生的故障数据量十分有限,导致训练模型时缺乏足够的异常特征参考。
(2)解释能力不足:纯数据驱动模型在给出诊断结论时,往往缺乏明确的物理意义支撑。这种决策逻辑的模糊性,是目前该技术在工程化应用中面临的主要阻力之一。 二、方法探索:基于仿真辅助的随机森林框架本文提出了一种名为 热力学仿真辅助随机森林(TSRF) 的整合方案,尝试在功能架构上将热力学建模与集成学习进行衔接。这种做法利用两者的互补性,在一定程度上改善传统诊断模型在工业场景下的适用性。这套方法的整体框架可以由下图清晰地展示:
图 1: 热力学仿真辅助随机森林方法的整体结构
从图中我们可以看到,整个流程从热力学模型出发,通过故障仿真生成数据,经过分类,最后到达解释环节。具体来说:
(1)热力学仿真模型
该数值模型基于基本热力学方程建立,对柴油机的物理过程进行数字化表征。通过调节模型中的结构参数,研究者可以观察组件退化对循环过程(如压力梯度、热流量)的影响,从而获取补充性的仿真数据集,以改善实际工况中故障样本稀缺的问题。下图为柴油机一维热力学模型:
图2:柴油机一维热力学模型
这是一种工程领域使用的数值计算手段,主要用于分析柴油机的热力学循环过程。通过对系统进行一维简化,该模型能够在有限的计算资源下提供比较可靠的性能预测,可以应用于发动机的初步设计与参数匹配工作中。
(2)随机森林模型
作为一种性能卓越的机器学习算法,随机森林具备从大量数据中提取核心规律的特质。在获得了热力学仿真产出的大量故障样本后,该模型能够建立起敏锐的识别机制,对本文研究的各种发动机异常模式进行高效归类。下图为结合了柴油机热力学建模与机器学习(随机森林)以及模型可解释性分析(SHAP值)的完整研究流程图:
图3:基于 SHAP 的参数选择过程
上图的核心步骤为:
① 物理驱动的数据基础
鉴于真实故障数据的获取成本与风险很高,所以首先利用一维热力学仿真模型作为“数据工厂”。该模型不仅考虑了基本的转速与负荷,还刻画了气缸内燃烧、换气等物理过程。通过模拟大量工况,我们获得了一个涵盖压力梯度、瞬时温度等物理信息的数据库,确保了后续训练的“底色”具有合理的物理背景。
② 复杂规律的初步捕捉
由于发动机系统具有高度的耦合性,参数间的关系并非简单的线性叠加。通过随机森林算法的初步训练,模型得以在大量数据中自发寻找隐藏的规律。这一阶段的意义在于,AI通过对仿真样本的学习,自动构建起一套复杂的判断逻辑。
③ 开启黑盒的可解释性分析
传统的 AI 往往被视为无法透视的“黑盒”。引入SHAP解释器是本研究的关键,它基于博弈论思想,将模型给出的每一个诊断结果进行“物理拆分”。它能告诉工程师:之所以判断为某项故障,温度贡献了多少,压力贡献了多少。这种归因分析将统计学概率转化为了可见的物理证据。
④ 从大量特征到关键信号的跨越
在工程实践中,传感器并非越多越好。通过SHAP重要性排行榜,我们能够客观地评价每个参数的“性价比”。剔除那些对结果影响较小的冗余参数(如某些工况下不敏感的温升),不仅降低了数据处理的负担,更让诊断模型能够聚焦于那些能够反映发动机健康状况的核心信号。
⑤ 物理与算法的深度协同优化
最后的模型再识别过程并非简单的重复。使用筛选后的关键参数重新训练,能够排除“伪相关”参数对模型的干扰。这种精简化模型在响应速度上更具优势,且由于输入参数均具有对应的物理意义,使得 AI 的诊断结论能与工程经验相契合,从而真正为发动机的优化设计与实时维护提供具有物理置信度的决策支持。
三、工作流程
(1)生成数据
首先,研究人员利用热力学模型,模拟了缸盖开裂、活塞烧蚀、缸套磨损等五种典型的燃烧室故障。通过微调模型参数,生成了覆盖多种故障状态的数据集,在一定程度上缓解了实际“病例”样本不足的问题
(2)筛选与诊断
然后,该论文并没有将所有模拟参数都交给AI。而是使用一种名为SHAP的先进分析工具,去评估每个参数对于区分故障的重要性。这就像一位经验丰富的医生,知道要重点关注哪几项关键指标。最终,筛选出8个“重要指标”(如涡轮增-压器后排气温度、漏气热流等),并用这些指标来训练随机森林模型,使其诊断准确率在仿真数据集上达到了较高水平。下图直观地展示了各个参数的重要性排序。可以看到,P14(涡轮-增压器后排气温度)、P05(缸套壁热流)和P06(漏气热流)等参数排在了前列。 
图4:基于SHAP值的热力学参数重要性排序
(3)诊断依据
为理解模型判别故障的内在逻辑,研究人员利用 SHAP 方法对“活塞环磨损”等典型实例进行了拆解。下图清晰地反映了各特征对输出结果的影响程度。其中,红色部分标识了促进诊断成立的因素,蓝色则标识了抑制因素。这种分析为评估模型的工程合理性提供了依据。
图5:对“活塞环磨损”故障(F4)的瀑布图解释
通过嵌入 SHAP 归因分析,故障诊断系统开展了预测结果与物理机理的对齐,提升了决策的可信度。该研究通过仿真辅助机器学习的尝试,拓宽了可解释诊断的路径,对于解决复杂设备维护中的数据样本不足及透明度缺失问题,具有明显的参考价值。
四、实际意义
该项工作的核心意义在于形成了一套耦合物理机理与数据驱动的可解释故障诊断方案,形成了“仿真驱动、智能识别、逻辑归因”的闭环路径。这一成果为大型工业装置的智慧运维提供了新思路,相关成果已刊载于《Measurement》,对跨学科的研究与应用具有实质性的借鉴价值。
原始论文:C. Luo, M. Zhao, X. Fu, S. Zhong, S. Fu, K. Zhang, X. Yu.Thermodynamic simulation-assisted random forest: Towards explainable fault diagnosis of combustion chamber components of marine diesel enginesDOI:10.1016/j.measurement.2025.117252
论文PDF、代码和数据集:https://ts-rf.github.io/zh-CN/