基于深度强化学习的流水线预测性维护决策

2022-01-07崔鹏浩王军强张文沛

计算机集成制造系统 2021年12期

崔鹏浩，王军强，张文沛，李洋+

(1.西北工业大学生产与运作系统性能分析中心，陕西西安 710072；2.西北工业大学机电学院工业工程系，陕西西安 710072)

0 引言

随着物联网(Internet of Things，IoT)、数字孪生(Digital Twins,DT)和人工智能(Artificial Intelligence,AI)等高新技术的发展，智能制造环境为生产数据获取提供了便利，使得产线运行的过程数据实时采集成为可能[1-2]。流水线是现代化生产中广泛采用的生产组织形式，由机器和缓冲区依次交替串联组成。机器在加工过程中，随着运行时间的增加会从健康状态持续劣化，最后到达故障状态，即机器运行状态存在一定的劣化特征。机器运行状态的劣化过程不仅会降低机器独立运行效率，还会打破整个流水线的原有平衡性，影响流水线有效产出，造成系统产能浪费。

设备维护在降低故障频率、提升运行效率和保障产品质量等方面起着至关重要的作用。预测性维护(predictive maintenance)决策是一种以设备工作状态为依据的维护决策方式，旨在降低维护成本的同时，提高设备乃至生产系统的运作效率，保证生产系统持续高效运行[3]。具体地，通过持续监测设备运行状态，预判故障可能发生的时间，在故障发生之前确定成本效益最优的维护时机，并采用合适的维护活动，阻止设备运行状态的劣化，最大限度地减少设备的计划外停机时间并降低维护成本[4]。

在实施预测性维护过程中，虽然都是计划内停机，但是在不同机器、不同劣化状态下进行维护，将产生不同的成本投入与生产收益。不合理的维护停机不仅会降低机器效率、增加维护成本，还会造成其他机器的非故障停机。非故障停机还会沿着上游和下游两个方向进行传播，造成生产线其他机器的阻塞或者饥饿，进而影响生产系统的整体性能。因此，需要对机器维护停机时机进行决策。

现有研究维护决策直接聚焦于产生故障的机器，并对其进行单机维护决策，旨在提高该故障机器的独立运行效率。对于流水线等多机系统，若采用单机情形下独立优化思路进行决策，只能提高单个机器的独立运行效率，不一定能提升系统的整体性能，致使维护投入未能发挥出更大的系统收益。因此，面向多机系统进行维护决策时，不能将维护决策看成单个机器独立决策再进行迭代形成多机维护决策的问题，而应该考虑单台机器运行效率与系统整体性能之间的关系，并将产线作为一个系统进行整体决策。

本文针对考虑预测性维护的流水线，改变以提升机器独立运行效率提升为导向的维护决策方式，探索以系统整体性能提升为目标的维护决策方法。本文利用数字孪生环境下生产数据采集的实时性与便捷性，在全面掌握车间生产运行状态、生产过程数据的基础上，探究随机扰动对生产系统动态运行过程的影响，挖掘系统中机器最佳维护停机时机，实现流水线预测性维护的合理决策，以期在降低维护成本的同时提高系统整体的运作效率。具体地，基于马尔科夫链构建流水线瞬态性能评估模型，揭示机器故障和预测性维护对生产过程影响的作用机理，量化系统瞬态产出和在制品水平等性能指标。在此基础上，基于马尔科夫决策过程建立流水线预测性维护决策模型，并利用深度强化学习方法获得有效的流水线预测性维护决策方案。本文研究流水线预测性维护决策问题，以期为智能制造环境下产线过程管控、性能提升与持续改进提供科学的理论依据、创新的研究方法和辅助的决策依据。

1 文献综述

生产系统性能分析利用随机过程等数学工具刻画物料流与机器状态和缓冲容量的交互关系，基于机器和缓冲区特征参数量化系统产出、在制品水平等性能指标，旨在探索生产系统运作的基本法则和运行规律[5-7]。GERSHWIN[8]提出一种基于马尔科夫链的两机器单缓冲流水线性能分析模型，在此基础上提出一种用于求解多机器流水线的分解方法。LI等[9]对由伯努利机器和有限缓冲区组成的流水线进行了性能分析，提出了求解多机器流水线的聚合方法。ALTIOK等[10]利用马尔科夫链对流水线进行了性能分析，进一步研究了流水线缓冲区能力分配问题。KANG等[11]利用马尔科夫链模型对机器具有劣化现象的流水线进行了性能分析，在此基础上研究了流水线瓶颈识别和持续改善问题。ZHANG等[12]针对由伯努利机器和有限缓冲区组成的流水线，基于马尔科夫链提出一种瞬态性能分析方法。JIA等[13]针对由伯努利机器和有限缓冲区组成的装配系统，在系统投料有限的情况下研究了系统瞬态性能分析问题，并对系统单调性及可逆性等性质进行了讨论。JIA等[14]针对由伯努利机器和有限缓冲区组成的流水线，在系统投料有限的情况下研究了系统性能分析和持续改善问题，基于马尔科夫链模型提出了系统瞬态性能分析和瓶颈识别方法。JIA等[15]针对由3台几何机器和有限缓冲组成的装配系统，分别提出了系统投料有限和投料无限两种情况下的瞬态性能分析方法，进一步将该方法扩展到多机器装配系统。

维护决策直接影响设备乃至生产系统的运作效率，不合理的维护决策不仅会影响机器自身的产出，还会引起其他机器的饥饿或阻塞导致系统产能的浪费。因此，生产系统维修决策问题受到学者的广泛关注。然而，现有研究多集中在单机维护决策层面。例如，IRAVANI等[16]针对考虑机器能力退化的单机生产-库存系统，基于马尔科夫决策过程建立了预测性维修决策模型，并利用双阈值策略近似最优预测性维修决策。RAUSCH等[17]针对考虑备件库存的单机情形，以最小化系统运行成本研究了备件库存控制问题。BOUSLAH等[18]针对考虑机器可靠性和产品质量恶化的单机情形，以生产批量、库存阈值、抽样计划参数和维修阈值等参数作为决策变量，以产品质量满足出厂质量限制为约束，研究了定期维护决策问题。ZHANG等[19]针对考虑组件间经济依赖性的多组件单机情形，以最小化系统运行成本为目标，利用强化学习方法求得了系统柔性维护决策方案。YOUSEFI等[20]针对考虑各组件独立恶化效应的多组件单机情形，将维护决策问题构建为马尔科夫决策过程，利用强化学习方法求得了动态维护决策方案。PARASCHOS等[21]针对考虑产品质量随机器运行状态恶化的单机生产—库存系统，提出了生产、预测性维护和质量集成控制策略，以最大化系统收益为目标，利用强化学习方法对集成控制策略相应参数进行了优化。

目前，多机维护决策研究相对较少。王潇等[22]针对考虑产品质量受机器运行状态影响的两机器单缓冲流水线，以最小化系统的运行成本为目标，提出一种分布式多Agent强化学习方法，求得维护资源有限条件下流水线预防维护策略。该研究假设流水线由两台机器组成，所提预防性维护决策方法难以直接扩展到多机器流水线。XIA等[23]针对考虑预测性维护的流水线，分别研究了单台机器层面和流水线系统层面的预测性维护决策问题。该研究假设单台机器的维护需要流水线中所有机器停机。CHANG等[24]针对考虑预防性维护的流水线，提出一种基于维修机会窗口的预防性维护决策方法。该方法利用机器故障停机产生的机会窗口对流水线中其他机器进行预防性维护，力求在满足维修需求的同时减少对产出的不利影响。该研究假设流水线中当机器故障发生时，故障的持续时长为已知信息。由以上分析可知，现有研究均基于特定的简化性假设，研究成果具有一定的局限性。

综上所述，目前流水线维修决策相关研究主要集中在单机维护决策层面，较少涉及多机维护决策层面。另外，现有研究大多基于概率分布假设或仿真数据，未有效利用智能制造环境下数据获取的实时性与便捷性。本文以流水线实时运行状态信息为驱动，以系统整体运行性能提升为目标，以系统性能量化评估为支撑，研究多机预测性维护决策方法。

2 问题提出

2.1 问题描述

本文研究对象为由L台机器和L个缓冲区组成的流水线，如图1所示。具体地Ml(1≤l≤L)表示第l台机器，bl(1≤l

流水线中的机器为不可靠机器，具有若干个依次劣化的离散运行状态。机器在不执行维护活动的情况下，运行状态会不断劣化，最终到达故障状态。当机器发生故障前，执行预测性维护使机器恢复到更健康的运行状态，阻止机器运行状态的劣化。当机器处于故障状态时，需要执行事后维修，使机器恢复到非故障状态。

在流水线上实施预测性维护的过程中，机器维护时机合理与否直接关系到流水线的运行效率。若维护时机选择得当，缓冲区足以应对上下游机器生产需求，则机器的维护停机并不会对其他机器的产出造成影响。此时，修复该机器的运行状态，不仅使得机器的状态恢复到更好的状态，还避免了对整个产线正常运行造成影响。若错过了最佳维护时机，则机器状态不断劣化，机器产出不断降低，进而影响整个产线的产出，不可避免地造成系统的产能损失。若再不进行机器运行状态的修复，则系统性能会再次恶化。此时机器维护是迫不得已进行机器运行状态的修复，需要以牺牲系统整体运行效能为代价。因此，需要立足产线实际情况，研判维护活动对产线的影响，优化维护活动的介入时机。

机器的不可靠性、运行状态的劣化性使得系统具有随机性，缓冲区的有限容量使得系统中各机器之间具有相依性，这些因素相耦合使得生产系统各组成部分之间的扰动影响传播演化为非线性关系，生产系统表现为典型的复杂动态系统。本文以多机流水线为研究对象，考虑机器运行状态的劣化特征，分析不同机器、不同劣化状态下，不同的维护成本及系统收益情况，剖析流水线维护决策的介入时机，研究流水线预测性维护决策问题，以在降低维护成本的同时提高系统的运作效率。

2.2 问题假设

本文涉及的相关假设如下：

(1)缓冲区bl(1≤l≤L)的缓冲容量为Bl。bl(t)表示t时刻缓冲区bl中的在制品数量。

(2)所有机器的加工周期是相同且固定的，加工周期将时间轴依单位时间进行分段。

(3)机器Ml(1≤l≤L)具有Nl+1个依次劣化的离散运行状态αl，αl∈{0,1,…,Nl}。αl(t)表示机器Ml在t时刻所处的运行状态。αl(t)=0表示机器Ml在t时刻处于健康状态，αl(t)=Nl表示机器Ml在t时刻处于故障状态。当机器Ml处于状态αl(t)时，其加工能力为vl(αl(t))。在每个加工周期内，机器Ml的加工能力vl(αl(t))是指当机器处于状态αl(t)时，可以加工完成的最大工件数量。具体地，当缓冲区bl-1中剩余工件数量和缓冲区bl中剩余空间均大于vl(αl(t))时，机器Ml可以加工vl(αl(t))个工件。

(4)机器Ml(1≤l≤L)在不执行维护活动的情况下运行状态αl会不断劣化，最终到达故障状态。θi,j(i≠Nl)表示在不执行维护活动的情况下机器Ml从状态αl=i转移到状态αl=j的概率。

(8)pl(αl(t-1),αl(t),cl(t-1))表示在维护决策cl(t-1)的情况下机器Ml从状态αl(t-1)转移到状态αl(t)的概率，具体表达式为：

pl(αl(t-1),αl(t),cl(t-1))=

(9)市场需求具有NL+1+1个离散状态αL+1，αL+1∈{0,1,…,NL+1}。αL+1(t)表示在t时刻市场需求所处的状态。vL+1(αL+1(t))表示t时刻市场需求的取值大小。pL+1(i,j)表示市场需求从状态αL+1=i转移到状态αL+1=j的概率。

(10)THl(t)(1≤l≤L)表示在t时刻机器Ml的产出。

(11)gl(cl(t))表示机器Ml(1≤l≤L)在t时刻的维护成本。具体地，gl(cl(t)=0)=0且gl(cl(t)=-1)>gl(cl(t)=1)>0。

本文使用的参数符号说明如表1所示。

表1 参数符号说明

续表1αl,1≤l≤L+1机器和市场需求的状态。具体地,αl(t),1≤l≤L表示t时刻机器Ml的运行状态,αL+1(t)表示t时刻市场需求的状态。M→(t)M→(t)=[α1(t),…,αL+1(t)]表示t时刻所有机器和市场需求的状态s→流水线的运行状态,s→(t)表示t时刻流水线的运行状态cl(t),1≤l≤L机器Ml在t时刻的维护决策c→所有机器的维护决策,c→(t)表示在t时刻所有机器的维护决策r(s→(t),c→(t))当流水线处于s→(t)时,执行维护决策c→(t)的成本θ→神经网络各层的权重参数π流水线维护策略Vπ(s→)流水线在策略π和状态s下的状态价值函数,即在策略π下,从状态s→开始运行得到的累积折扣收益的期望值Qπ(s→,c→)流水线在策略π和状态s→下的动作状态价值函数,即在策略π下,处于状态s→时执行决策c→的最大化状态价值函数Qπ(s→,c→,θ→)动作状态价值函数的神经网络近似函数L(θ→)神经网络训练过程近似值和真实值的均方差

2.3 研究方案

本文以考虑预测性维护的流水线为研究对象，改变以提升机器独立运行效率为导向的维护决策方式，探索以提升系统整体运行性能为目标的维护决策方法，充分挖掘机器的维护停机时机，在降低维护成本的同时提高系统整体运作效率。在流水线运行过程中，鉴于机器运行状态的变化性、维护成效的不确定性，系统性能随着时间变化呈现出动态变化的特征。因此，流水线预测性维护决策不是一次性决策问题，需要在每一时刻根据流水线当前系统状态、维护活动成本以及系统瞬态性能等情况，对每台机器是否进行维护活动进行序列决策。

为了解决上述流水线预测性维护决策问题，在预测性维护决策模型构建方面，本文基于马尔科夫链构建了流水线瞬态性能评估模型，量化了系统瞬态产出和在制品水平等性能指标。在此基础上，考虑系统实时产出、在制品水平及预测性维护成本等因素构造了收益函数。剖析流水线预测性维护决策问题呈现的序列决策特点，本文将流水线预测性维护决策问题构建为马尔科夫决策过程。马尔科夫决策过程的输入为系统状态集合、维护决策集合、与状态和决策相关的收益函数、与维护决策相关的状态转移概率集合，输出为预测性维护策略，即流水线处于某个系统状态时作出维护决策所遵循的规则。

在马尔科夫决策过程求解方面，利用深度强化学习算法进行求解，获得有效的流水线预测性维护决策方案。深度强化学习算法的核心是利用样本数据对神经网络进行训练，使其能够指导流水线的实时维护决策。针对训练数据，本文利用马尔科夫链模型，建立流水线瞬态性能评估模型，模拟流水线的实时运行过程，产生神经网络训练所需数据。针对神经网络的训练过程，本文采用神经网络与瞬态性能评估模型交互的方式，利用小批量随机梯度下降的方法对每层网络的权重参数进行迭代更新。最终，通过训练神经网络获得预测性维护策略，通过在流水线上应用预测性维护策略获得有效的预测性维护决策方案。流水线预测性维护决策问题具体研究方案如图2所示。

3 流水线瞬态性能评价方法

3.1 系统状态转移分析

(1)

(2)

算法1流水线状态转移概率求解算法。

2. 对于t+1时刻所有可能到达的机器状态组合：

5. 结束

3.2 系统瞬态性能指标

本节基于流水线系统状态转移过程对瞬态性能指标进行分析，所涉及的性能指标主要包括：

(1)产出(TH)t时刻，机器Ml(1≤l≤L)加工完成的工件数量为机器Ml在t时刻的产出THl(t)。流水线在t时刻的产出为最后一台机器ML的产出THL(t)。

首先，对流水线的产出进行分析。对于机器M1而言，t时刻的产出TH1(t)通过比较机器M1处于状态α1(t)时的加工能力v1(α1(t))和下游缓冲区b1中剩余存储空间B1-b1(t-1)+TH2(t)的大小来确定，具体表示如下：

TH1(t)=min{v1(α1(t)),B1-b1(t-1)+TH2(t)}。

对于机器ML而言，t时刻的产出THL(t)通过比较机器ML处于状态αL(t)时的加工能力vL(αL(t))和下游缓冲区bL中剩余存储空间BL-bL(t-1)+min{vL+1(αL+1(t)),bL(t-1)}和上游缓冲区bL-1中在制品数量bL-1(t-1)的大小来确定，具体表示如下：

THL(t)=min{vL(αL(t)),bL-1(t-1),BL-bL(t-1)+min{vL+1(αL+1(t)),bL(t-1)}}。

对于其他机器Ml(1

THl(t)=min{vl(αl(t)),bl-1(t-1),Bl-bl(t-1)+THl+1(t)},1

因此，流水线中各个机器在t时刻的产出THl(t)表达式如下：

进一步，对流水线的在制品水平进行分析。对于缓冲区bL而言，t时刻的在制品数量bL(t)通过机器Ml的产出THl(t)、市场需求vL+1(αL+1(t))和缓冲区bL的在制品数量bL(t-1)的关系进行描述，具体表示如下：

bL(t)=bL(t-1)+THL(t)-min{vL+1(αL+1(t)),bL(t-1)}。

对于其他缓冲区bl(1≤l

bl(t)=bl(t-1)+THl(t)-THl+1(t)。

因此，流水线中各个缓冲区在t时刻的在制品数量bl(t)表达式如下：

(3)

4 预测性维护决策方法

4.1 维护决策模型

在流水线运行过程中，每一时刻的系统状态与所有机器采取的维护决策共同决定了下一时刻的系统状态。根据当前状态，系统决策机器是否进行维护活动。当机器维护决策执行之后，机器状态会按照一定概率分布到达新的状态。在下一时刻，系统同样面临着是否对机器进行维护活动的决策问题。系统下一时刻的状态只依赖于当前系统状态和所选择的维护决策，与过去的系统状态与维护决策无关。根据以上分析，该循环进行的维护决策过程属于典型的序列决策问题，且状态转移过程具有马尔科夫性，因此满足马尔科夫决策过程所需的关键要素。

具体地，收益函数由在制品库存成本、缺货惩罚成本和维修成本组成：

马尔科夫决策过程的输出为最优维护策略π*以及对应的最小期望折扣成本。马尔科夫决策过程求解的核心是贝尔曼最优方程(Bellman optimality equation)的求解，贝尔曼最优方程的具体表达式如下：

对于小规模马尔科夫决策过程，传统动态规划方法通过递归迭代的方式得到最优策略。然而，随着流水线机器数量和缓冲区容量的增加，会引起系统状态空间和动作空间的爆炸式增长，使得马尔科夫决策过程的求解遇到“维数灾难”的问题，导致动态规划求解困难[25-26]。近似动态规划方法一般通过值函数近似的方式对大规模马尔科夫决策过程进行求解，能够有效地应对“维数灾难”的问题。深度强化学习算法作为一种典型的近似动态规划方法，在值函数的泛化逼近方面具有优势。考虑到所研究的流水线预测性维护决策问题属于典型的大规模动态决策问题，求解过程中不可避免地遇到“维数灾难”的问题。因此，本文采用深度强化学习方法对所建立马尔科夫决策过程进行求解，以获得流水线的预测性维护策略。

4.2 深度强化学习算法

深度强化学习是一种以通用的形式将深度学习的感知能力与强化学习的决策能力相结合的机器学习方法。本节采用深度强化学习中基于价值函数的深度Q网络算法(deep Q-network algorithm)对预测性维护决策模型进行求解。

深度强化学习算法的核心是利用样本数据对神经网络进行训练，使其能够指导流水线进行实时维护决策。针对训练数据，因为缺乏实际数据支持，本文利用所建立的流水线瞬态性能评估模型，模拟流水线的实时运行过程，产生神经网络训练所需的数据。具体地，通过模拟获得当前时刻流水线的系统状态、维护决策及对应的系统收益等数据。根据当前时刻维护决策以及状态转移概率，得到下一时刻流水线的系统状态。依次进行迭代，获得每一时刻流水线的系统状态、维护决策及系统收益等数据，解决了神经网络训练遇到的数据匮乏问题。

为了提高训练过程的效率，利用经验回放和双网络结构两种机制提高神经网络训练过程收敛效果和稳定性。①经验回放，通过将样本数据储存在经验池，训练过程随机从经验池抽取样本来进行训练，以此来降低训练数据的相关性，使神经网络更容易收敛且具有更强的泛化能力；②双网络结构，通过构建两个相同且独立的神经网络，在训练过程中利用当前网络参数更新目标网络参数，以此来降低迭代更新前后网络参数之间的相关性，从而提升训练过程的稳定性[27]。最终，通过训练神经网络获得预测性维护策略，通过将其应用到流水线获得预测性维护决策方案。深度Q网络算法的具体实现步骤如算法2所示。

算法2深度Q网络算法。

1. 输入参数：状态空间S，动作空间C，折扣因子γ，经验回放批量ψ，学习率A，网络更新步数a

3. 对于回合数episode=1:Θ

5. 对于时刻t=1:T

13. 结束

14. 结束

5 实例分析

5.1 实验设计

表2 机器加工能力参数

表3 缓冲区容量参数

表4 机器M1在不同维护决策下的状态转移概率

表5 机器M2在不同维护决策下的状态转移概率

表6 机器M3在不同维护决策下的状态转移概率

表7 机器M4在不同维护决策下的状态转移概率

表8 机器M5在不同维护决策下的状态转移概率

表9 市场需求的状态转移概率

表10 相关成本参数

5.2 结果分析

实验过程中，流水线运行采用三班轮休制，每一班组工作时间为8 h。生产过程的暖机时长为100 d，后续运行时长为1 000 d。首先，为了验证预测性维护决策方法的有效性，本节将所提维护决策方法与3种现有维护决策方法进行比较。3种维护决策方法分别为事后维修方法、定期维护方法和基于状态的维护决策方法：

(1)事后维修方法仅当机器发生故障时，对机器执行维修活动使其恢复到正常工作状态。在本实验中，当机器处于故障状态时，若执行维修活动，该机器从故障状态按照概率分布转移到某个非故障运行状态。

(2)定期维护方法根据经验或设备维修手册，确定合理的时间间隔对非故障机器进行维护。若机器发生故障，立即执行维修活动。定期维护是一种基于时间的维修决策。具体地，利用仿真实验以最小化系统运行成本为目标，对每台机器的维护周期进行优化。

(3)基于状态的维护决策方法根据状态检测技术判断机器所处的状态，并根据机器的工作状态确定是否对非故障机器进行维护。若机器发生故障，则执行维修活动。同样地，利用仿真实验以最小化系统运行成本为目标，确定每台机器实施维护活动的工作状态。

所提预测性维护决策方法与以上3种维护决策方法的对比结果如表11所示。实验结果表明，所提维护决策方法在维护成本、在制品库存成本和缺货成本等方面均优于其他策略。具体地，与基于状态的维护决策方法相比，所提维护决策方法的维护成本降低了6.61%，在制品库存成本降低了3.54%，缺货惩罚成本降低了1.73%；与定期维护方法相比，维护成本降低了9.32%，在制品库存成本降低了13.36%，缺货惩罚成本降低了2.65%；与事后维修方法相比，维护成本降低了10.52%，在制品库存成本降低了13.93%，缺货惩罚成本降低了3.21%。

表11 不同维护决策方法执行效果对比元/d

为了分析预测性维护决策方法的特点，随机选择时间长度为2 h的时间段，该时段内流水线在制品水平、缺货和典型机器M1、M3和M5的维护决策变化情况如图4所示。

结果表明，所提预测性维护决策方法能够有效地确定合理的维护时机，在降低流水线维护成本的同时提高系统运作效率。具体分析结果如下：

(2)流水线倾向于当在制品水平比较高时执行预测性维护活动。当在制品水平较低时，停机维护会导致较高的缺货成本。当在制品水平较高时，停机维护不仅可以在一定程度上降低机器故障的风险，还有助于降低在制品库存成本。

6 结束语

在智能制造环境下，数字孪生车间通过虚实映射、虚实交互为生产数据获取提供了便利性，使得产线运行过程中生产状态变化、扰动事件等信息收集成为可能。本文利用数字孪生车间环境下生产数据采集的实时性与便捷性，研究预测性维护决策方法，根据流水线运行状态的实时变化情况，及时对预测性维护活动进行动态调优，为智能制造环境下产线过程管控、性能提升、持续改进提供了科学的理论基础、创新的研究方法和辅助的决策依据。

本文以考虑机器劣化过程的多机流水线为研究对象，以生产系统运行的实时状态信息为驱动，以系统整体性能提升为目标，以系统性能评估为支撑，考虑机器的不可靠性、运行状态的劣化性以及缓冲区容量的有限性，分析产线运行过程中机器的维护时机，研究流水线预测性维护决策问题，旨在降低维护成本的同时提高系统整体的运作效率。

在预测性维护决策模型构建方面，首先，分析了机器故障和维护活动对系统状态转移过程的影响，基于马尔科夫链建立了流水线瞬态性能评估模型，量化了系统瞬态产出和在制品水平等性能指标。在此基础上，考虑系统实时产出、在制品水平及预测性维护成本等因素构造了收益函数，基于马尔科夫决策过程建立了流水线预测性维护决策模型。

在流水线预测性维护决策问题求解方面，利用瞬态性能评估模型，模拟流水线的实时运行过程，产生神经网络训练所需数据，利用深度强化学习算法对问题进行了近似求解，获得了有效的流水线预测性维护决策方案。通过与事后维修方法、定期维护方法和基于状态的维护决策方法这3种维护方法进行比较，验证了所提的维护决策方法的有效性。

本文探索以系统整体性能提升为目标的维护决策方法，充分挖掘流水线运行过程中机器的维护停机时机，改变了以机器独立运行效率提升为导向的维护决策方式，未来可以将研究对象拓展为装配线、可重入生产线，研究生产线建模和预测性维护的决策问题。