基于LMDP的铁路钢轨网格化维修规划编制模型

2019-11-08刘仍奎赵新勇王福田

铁道学报 2019年10期

白磊，李擎，刘仍奎，赵新勇，王福田

(1.北京交通大学交通运输学院，北京 100044；2.北京全路通信信号研究设计院集团有限公司，北京 100073；3.北京易华录信息技术股份有限公司，北京 100043)

铁路钢轨是铁路轨道设备的重要部件，具有承载轮重、横向上引导车轮、提供光滑的运行表面等功能，它的强度和状态直接关系到铁路运输的安全、平稳和畅通。铁路钢轨维修规划的优化编制，对合理配置维修资源，降低维修成本，有效减少“过维修”“欠维修”等维修活动，保障行车安全等具有重要意义。

文献[1]对铁路轨道年度维修计划、月度维修计划、日维修计划等有明确规定。铁路现场缺少较长时间范围轨道维修规划的相关管理规章。决策者常以年为基本单位，按照百分比的形式，确定管辖范围内的维修与大修任务量，缺乏对维修规划的统筹编制。

铁路轨道设备维修规划、维修计划编制建模大多采用组合优化方法[2-9]。如Caetano等[2-3]提出了多目标的铁路轨道维修规划编制模型，分别选取了以轨道可靠性最大、成本最小相权衡的目标函数组，以及以轨道不可用度最小、成本最小相权衡的目标函数组。郭然等[6]提出了一个面向区域路网的铁路轨道维修计划编制模型，该模型采用整数规划方法实现。周宇等[7]提出了一个以轨道状态最优为优化目标的综合维修计划编制模型，该模型采用0-1整数规划方法实现。李海峰等[8]提出了一个基于文献[1]铁路轨道综合维修计划编制模型。许玉德等[9]采用整数规划方法，提出了一个以年度TQI平均值最小为目标函数的铁路轨道综合维修计划编制模型。

以上研究在编制轨道设备维修规划时，忽略了轨道设备状态劣化的不确定性，均假设提出的轨道设备状态劣化模型能准确预测未来的状态。隐形马尔科夫决策过程方法(Latent Markov Decision Process，LMDP)能以观测概率矩阵的形式描述不同检查方式的检查误差，以状态转移概率的形式表达设备状态劣化的不确定性，确定出规划周期内的检查策略、维修策略。目前，LMDP的研究多集中在道路路面的维修规划编制问题，铁路轨道设备维修规划编制问题的直接研究较少[10-12]。

依据铁路基础设施网格化管理思想[13]，本文按照一定长度把线性、连续的钢轨设备，分割为相邻、长度相同的小区段，称之为钢轨网格(Railway Rail Grids，RRG)。依据文献[1]，线路是否需要采取更换钢轨大修作业的重要依据是，每公里的钢轨重伤根数是否达到阈值，故本文钢轨网格的整体状态采用每公里钢轨重伤根数进行度量。

本文将钢轨网格作为维修规划的基本编制对象，构建一种新的基于LMDP的钢轨设备维修规划编制模型(LMDP-based Optimal Repair Planning Model for Railway Rail Grids，LMDP-ORPM)。该模型在解决钢轨设备维修规划编制问题时，采用了LMDP方法，将钢轨劣化状态的不确定性、不同检查方式的检测误差不同等因素考虑在内；提出模型将钢轨状态劣化的异质性特征考虑在内，针对每个钢轨网格的状态劣化规律进行个性化地表达，准确评估钢轨网格的使用寿命，故编制出的维修规划更符合实际情况，更具针对性、指导性。

1 基于LMDP的铁路钢轨网格化维修规划编制模型

LMDP-ORPM以钢轨网格为基本研究对象，由两个子模型构成：铁路钢轨网格化状态劣化规律子模型，用于预测钢轨网格的未来状态；铁路钢轨网格化维修决策子模型，用于确定钢轨网格的检查规划、维修规划。

1.1 铁路钢轨网格化状态劣化规律子模型

本模型将以钢轨网格为基本研究对象，采用多阶段Markov模型，综合考虑各类异质性因素影响，充分利用钢轨设备的历史相关数据，个性化评估钢轨网格的使用寿命，准确描述其状态劣化规律，为钢轨维修规划的优化编制奠定基础。

根据文献[14]，钢轨设备的伤损病害等级分为4级，分别为不到轻伤、轻伤、重伤和折断。随着上道服役时间的增长，在不采取维修活动的条件下，钢轨设备伤损状态会逐步恶化，伤损等级会由轻伤发展为重伤，甚至折断。钢轨设备在不同生命周期阶段的劣化速度不同，在生命周期阶段初期，其劣化速度较慢，而在生命周期阶段末期，其劣化速度逐渐加快[15]。因此本模型将钢轨设备质量状态划分为若干等级，劣化过程细分为若干阶段。

影响钢轨设备状态劣化的异质性因素都与空间位置紧密相关，不同空间位置处的异质性因素一般不同。为充分反映各类异质性因素对钢轨设备状态劣化规律的影响，个性化把握铁路钢轨状态劣化趋势，本模型以钢轨网格为基本研究对象，采用Markov随机过程理论，描述钢轨网格状态等级在相邻两次检查间变化的不确定性；各个状态劣化阶段的钢轨网格寿命分布规律，利用不同的寿命分布函数表达，其相应的失效率由网格内的异质性因素确定。

钢轨网格在日期tA的状态等级X(tA)=i，则在日期tB的X(tB)=j的Markov转移概率为

prob[X(tB)=j|X(tA)=i]=πij

(1)

式中：tA、tB分别为该钢轨网格相邻两次检查日期，钢轨网格检查周期Z=tB-tA。

本文采用多阶段指数Markov模型[16-17]确定状态转移概率πij(i≤j；i=1,2,…,S-1；j=2,3,…,S)，S为状态等级的总数，则πij为

πij=prob[X(tB)=j|X(tA)=i]=

(2)

同时

(3)

(4)

(5)

θi=χβi

(6)

式中：θi为钢轨网格由状态等级i劣化到i+1的失效率，i=1,2,…,S-1；χ为钢轨网格的异质性因素；βi为χ对钢轨网格由状态等级i劣化到i+1的影响程度，i=1,2,…,S-1，可采用钢轨历史数据计算得到。

1.2 铁路钢轨网格化维修决策子模型

本模型将在准确把握钢轨网格状态劣化规律的基础上，采用隐形马尔科夫决策过程方法LMDP，构建铁路钢轨网格化维修决策子模型，以期望总成本最小为优化目标，确定出规划周期内的最优的检查规划、维修规划。

依据以下两点分析，选择采用隐形马尔科夫决策过程方法LMDP：(1)隐形马尔科夫决策过程LMDP强调，系统在下一个日期的状态，只与当前日期的状态、当前日期采取的行动有关，与之前日期的状态无关，且这种关系是以概率的形式描述的；(2)隐形马尔科夫决策过程LMDP中的系统状态细分为两类：真实状态(或隐藏状态)、观测状态，且以概率的形式描述真实状态与观测状态的关系。

1.2.1 模型的关键要素

基于状态的铁路钢轨维修策略模型，采用隐形马尔科夫决策过程LMDP进行构建，其关键要素为

(7)

(3)ηik(e)为钢轨网格在日期t采取检测活动Ct=e时，其真实状态为i且观测状态为k的概率，见式(8)。若不采取检查活动，Ct=0，对于真实状态为j的钢轨网格，其观测状态为任意状态的概率是相等的，即钢轨网格的各个状态都有相同的概率被观测到[12]，见式(9)。

(8)

(9)

(5)πij(a)表示钢轨网格在日期t的真实状态为i，采取维修活动At=a后，在日期t+1真实状态为j的概率，见式(10)。不同维修活动At的相应的状态转移概率πij(At)不同。

πij(a)=P(Xt+1=j|Xt=i,At=a)

(10)

(11)

πij(a)≥0

(12)

(6)ξ1(Xt,At)为钢轨网格在日期t采取维修活动At的成本；ξ2(Ct+1)为在日期t+1采取检查活动Ct+1的成本；Rt为ξ1(Xt,At)与ξ2(Ct+1)之和，即

Rt=g(Xt,At,Ct+1)=ξ1(Xt,At)+

ξ2(Ct+1)t=1,2,…,T-1

(13)

式中：T为规划周期结束日期。

RT为钢轨网格在日期T采取维修活动AT的成本ξ1(XT,AT)，即

RT=ξ1(XT,AT)

(14)

其中，维修成本ξ1(Xt,At)由钢轨网格状态Xt、采取的维修活动At的决定。若在日期t不采取维修活动，At=0，ξ1(Xt,0)表示由钢轨网格状态Xt持续劣化导致的损耗。检查成本ξ2(Ct)由采取的检查活动Ct决定，当在日期t不采取检查活动，Ct=0，相应的检查成本ξ2(0)=0。

(7)δ为随时间变化的折扣率，表示采取相同检查与维修活动时日期t的成本Rt与日期t-1的成本Rt-1的比值，δ=Rt/Rt-1。δ越小，表明当前成本与未来相比价值越高。

1.2.2 模型的决策变量

模型LMDP-ORPM在整个规划周期内的决策变量包括两部分：(1)维修决策：决定在日期t采取维修活动At(1≤t≤T)的类型；(2)检查决策：决定在日期t+1是否采取检查活动Ct+1(2≤t≤T)。

假设钢轨网格初始状态X1已知，钢轨网格在一个规划周期内的维修决策过程示意图见图1。在日期t，决策者根据钢轨网格的Xt，决定采取的At与Ct+1；在日期t+1，根据状态转移概率πij(At)，钢轨网格的状态由Xt转移到Xt+1，决策者根据钢轨网格的Xt+1，决定采取的At+1与Ct+2；然后以此类推一直循环到日期T，决策者根据钢轨网格的XT，决定采取的AT，整个维修决策过程结束。在上述整个维修决策过程中，每个日期t都会产生相应的检查、维修成本Rt(1≤t≤T)。

图1 钢轨网格在给定规划周期内的检查与维修决策过程示意图

1.2.3 模型的目标函数

模型LMDP-ORPM的目标函数是整个规划周期内的期望总成本函数最小，期望总成本函数由以下两部分构成：(1)检查、维修活动的成本Rt;(2)规划周期结束时的钢轨网格剩余价值GT+1，见图 1。其中，Rt=g(Xt,At,Ct+1)，由钢轨网格状态Xt、维修活动At、检查活动Ct+1的决定。GT+1=u(XT+1)，表示规划周期结束时的该钢轨网格里程范围内全部钢轨的使用价值，由该钢轨网格里程范围内全部钢轨的状态决定。规划期结束时的钢轨网格状态越好，相应的剩余价值越大。

vt(It)为从日期t开始至规划周期结束时的最小期望总成本。It(1≤t≤T+1)为钢轨网格从初始时刻到日期t的跨度内，由维修活动、检查活动、观测状态等元素构成的集合，可通过式(15)～式(17)递归得到，如IT+1的具体集合形式，见式(18)。

(15)

I1={X1}

(16)

IT+1={IT,AT}

(17)

(18)

整个规划周期内的最小期望总成本vt(It)可通过式(19)、式(20)递归得到。当1≤t≤T-1时，vt(It)由检查、维修活动的成本Rt，及日期t+1的vt+1(It+1)决定，见式(19)；当t=T时，vT(IT)由检查、维修活动的成本RT，及规划周期结束时的钢轨网格剩余价值GT+1决定，见式(20)。式中EY|W[·]表示在给定W条件下，所有可能Y相应[·]的平均值。

(19)

(20)

2 实例验证

2.1 背景介绍

为验证模型LMDP-ORPM的有效性，作者采集了47 304条陇海铁路6年(2010年1月到2016年1月)中K1397+000～K1720+000上下行区段内的钢轨伤损数据。为便于模型LMDP-ORPM的分析结果与铁路现场实际情况进行对比，本实例中钢轨网格的长度设置为1 km，故上述里程范围内的钢轨网格数量为648个。本实例将研究这些钢轨网格个性化的状态劣化趋势，最优化以10年为规划周期的钢轨网格检查与维修策略。规划周期的基本单位为年，时间范围为10年，即T=10年。成本随时间推移的折扣率δ取0.9。

表1 陇海线钢轨网格状态等级划分标准及其大修策略

另外，钢轨网格在本实例中的检查方式有两类：(1)钢轨探伤检查，C=1，相应的钢轨网格状态观测概率ηik(1)，见式(21)；(2)不采取检查活动，C=0。依据式(9)，相应的钢轨网格状态观测概率ηik(0)，见式(22)。兰州局一般按照1次/月的频率，定期地组织安排陇海线的钢轨探伤检查活动。在本实例中，若第t年的检测活动的检测方式Ct=1，表明第t年内的各月都采取钢轨探伤检查活动。

(21)

(22)

钢轨网格在本实例中的维修活动类型有两类：(1)整体更换钢轨大修，A=1，对应钢轨网格的状态转移概率为πij(1)；(2)不采取维修活动，A=0，对应钢轨网格的状态转移概率πij(0)。不同类型钢轨维修活动的费用，可在陇海铁路的现场调研中获取。

2.2 模型结果分析

2.2.1 状态劣化规律子模型结果分析

表2 影响陇海线钢轨网格状态劣化的异质性因素标定系数

注：(·)中的值表示待估参数的标准差。

(23)

(24)

依据得到的待估参数β，根据式(23)、式(24)，可评估出本实例中陇海线各钢轨网格的使用寿命。

图2展示了钢轨网格使用寿命随里程的变化趋势。图中的钢轨网格位于陇海线上下行1 560 ～1 610 km里程范围内，是全部研究对象的一部分。由图 2可知：(1)处于不同空间位置的钢轨网格使用寿命不同、状态劣化规律不同；(2)上行与下行钢轨网格的使用寿命随里程的变化趋势基本一致。

图2 陇海线上下行1 560～1 610 km里程范围内网格使用寿命对比图

本实例采用钢轨上道服役日期、更换报废日期数据，统计计算钢轨的真实使用寿命。(1)钢轨网格整体角度对比，计算出的全部研究对象的平均真实使用寿命是7.57年，模型LMDP-ORPM评估的出的全部研究对象的平均使用寿命是7.61年。(2)钢轨网格个体角度对比，全部研究对象(648个钢轨网格单元)中仅有94个钢轨网格评估使用寿命与真实使用寿命差别在3年以上，占总体的14.5%。因此，上述计算结果表明，评估出的钢轨网格寿命整体上非常接近真实值，可满足铁路现场钢轨管理需求。

2.2.2 维修决策子模型结果分析

表3 RG-A的状态转移概率(不采取维修活动)

假设钢轨网格RG-A在初始日期(t=1)前，刚采取了整体更换钢轨大修作业，则在日期t=1时该钢轨网格状态等级为1，不需要采取钢轨探伤检查活动。经计算，10年规划周期内的期望总成本最小值v1(I1)为232.64万元，相应的检查策略、维修策略如下。

(1)求解出的最优检查策略见式(25)和图3(a)。钢轨网格RG-A在{3,4,…,8}采取钢轨探伤检查活动，在 {1,2}∪{9,10}不采取检查活动。

(25)

(2)求解出的最优维修策略见式(26)和图3(b)。钢轨网格RG-A在第8年采取整体更换钢轨大修活动，在{1,2,…,7}∪{9,10}不采取大修活动。

(26)

为验证模型LMDP-ORPM的有效性，本实例将对比分析模型LMDP-ORPM与中国铁路既有管理方法的计算结果。根据文献[1]及兰州铁路局的实施细则，位于陇海线上行K1595+000～K1596+000里程范围处的钢轨网格RG-A，基本上是按照1次/月的检查频次，定期组织实施钢轨探伤的检查活动。相应的检查策略见式(27)和图 3(c)。

(27)

中国铁路既有管理办法判定是否成段更换钢轨大修作业的重要依据是，钢轨上道后至需要更换前的累计通过总重是否达到阈值。钢轨网格RG-A的累计通过总重阈值为700 Mt，年平均通过总重为96.588 Mt，故其成段更换钢轨大修周期为7.2年。相应的维修策略详见式(28)和图 3(d)。

(28)

通过对比式(25)与式(27)、式(26)与式(28)及分析图 3可知，(1)模型LMDP-ORPM确定出的钢轨网格RG-A的钢轨探伤检查活动次数为6次，少于中国铁路既有的管理方法规定的检查次数(10次)。(2)两种方法编制出的整体更换钢轨大修作业的次数是相同的，但模型LMDP-ORPM确定出的大修活动的实施时间，相较于中国铁路既有的管理方法推迟了1年。(3)模型LMDP-ORPM确定出的钢轨网格RG-A整体更换钢轨大修活动规划与中国铁路既有的管理方法的区别是，前者是基于钢轨网格个性化的状态劣化规律和10年规划周期内的总成本最小确定的，而后者则仅考虑了累计通过总重阈值。(4)若采用基于阈值的铁路既有的管理方法，具有相同年平均通过总重的陇海线钢轨网格的维修规划是相同的，但模型LMDP-ORPM考虑了钢轨状态劣化的异质性、不确定性，故编制出的维修规划是有差异的，更符合实际情况，更具针对性、指导性。

综上分析，模型LMDP-ORPM在准确把握钢轨网格状态个性化的劣化规律的基础上，基于钢轨状态、成本，编制出钢轨网格在一个较长规划周期内的维修规划，相较于基于阈值的中国铁路既有管理方法，实现了维修资源的统筹配置、维修成本的节省。

图3 不同方法编制出的钢轨网格RG-A维修规划图

3 结论

本文研究构建了一种基于LMDP的铁路钢轨网格化维修规划编制模型LMDP-ORPM。该模型依据铁路基础设施网格化管理思想，以钢轨网格为研究对象，采用多阶段Markov模型，个性化描述了钢轨网格状态变化规律；在此基础上，采用隐形马尔科夫决策过程方法LMDP，建立了基于状态的维修策略模型，确定出一个较长规划周期内的最优检查策略、维修策略。陇海线的实际案例表明，模型LMDP-ORPM编制出的10年铁路钢轨维修规划，优于既有的管理方法，优化配置了维修资源。如何将编制出的维修规划进一步细化到维修工序层面，构建铁路钢轨维修进度计划编制模型，是作者下一步的研究方向。