APP下载

基于数据挖掘的故障模式、影响及危害性分析改进方法

2021-09-13陈国兵

科学技术与工程 2021年24期
关键词:数据挖掘矩阵模块

王 越, 陈国兵, 李 军

(海军工程大学动力工程学院,武汉 430000)

作为衡量设备通用质量特性的关键,可靠性和安全性是其中重要的特性之一。评估设备及组成的相关风险,是设备可靠性和安全性中最为基础的工作之一。其中故障模式、影响及危害性分析(failure mode, effects and criticality analysis, FMECA)作为一种“自下而上”的系统分析故障方法,是设备必须开展的技术内容之一,广泛应用在航空、航天、医学、电力、电子、造船和机械等领域[1]。FMECA方法根据规定的分析流程和程序对系统各组成单元潜在的故障模式和影响,按照影响的严重程度及发生概率进行分析,为提高设备可靠性、安全性和维修性提供科学依据[2],它是一种全面、系统的故障分析方法,具有标准化、格式化、程序化等特点[3]。

随着大数据和人工智能时代来临,设备进一步迈向数字化、信息化及智能化,各种设备每时每刻都产生各种数据[4],日益增加的庞大数据为设备的安全性分析提供了更多的数据及信息,却也使得处理数据成为其中的关键。传统FMECA方法的不足在于,一方面大型复杂系统的FMECA数据越来越多,采用传统的关键风险清单等输出,结果单一且难以被理解;另一方面大量的基础数据无法被利用,有价值的信息没有被彻底挖掘。针对上述缺点,Zhou等[5]利用本体语言OWL(web ontology language)和规则语言SWRL(semantic web rule language)对FMECA风险清单进行数据挖掘并建立知识库,然后进行故障分析。王梦达等[6]在对风电机组进行FMECA分析时结合监测控制与数据采集系统,对大量数据处理与利用。吴伟波[7]利用中文分词对海量非结构化数据进行切分提取,然后建立设备的FMECA关联图,得到全面的故障信息。冯忠强[8]通过大数据文本挖掘技术从文本数据中挖掘相关设备的故障模式和原因等输出FMECA风险清单。现基于数据挖掘技术,对FMECA方法进行改进,并用Python和数据库进行程序实现。实例分析结果表明,改进的FEMCA方法能够充分利用风险清单数据,分析结果更加客观准确,可作为设备的智能健康管理的基础。

1 数据挖掘及改进的FMECA方法

1.1 数据挖掘基本内容

数据挖掘是指通过算法,找出藏在大量数据中的,没有发现的,可利用信息的过程[9]。数据挖掘主要基于人工智能、数据库等学科,对大量数据进行研究分析和收集使用,发现内部的规律和模式,进而可以为用户调整方案,进行决策支持。

数据挖掘大致可以分为4个步骤,如图1所示。

图1 数据挖掘步骤

数据分析的关键是数据,只有深入全面的获取数据,才能充分挖掘数据的价值。通过对原始数据和预处理后的数据等分析前期数据的观察和探索,可以认识数据全貌,洞见数据特点,对后续分析起到重要作用。数据分析的整体分析思路和具体分析方法不是一成不变的,而是由分析的目标和数据本身的特点共同决定,不存在对所有数据都固定有效的分析思路和分析方法[10]。

可视化分析通过将各类信息转化为视觉图像的方式呈现,不仅提高了相关人员对抽象信息的理解和判断能力,同时促进了对数据采集和数据挖掘的评估、纠正和改进。改善人类最终获得的知识和决策[11]。

1.2 改进的FMECA方法

基于数据挖掘基本理论,对FMECA进行改进,并通过Python等软件实现其算法。

1.2.1 FMECA数据获取

数据获取的内容:根据FMECA工作表格中的故障模式、故障原因、故障影响、严酷度、故障率数据源、风险评价和基本维修措施的数据,然后保存在利于后续可编辑和可视化的Excel中,并将其以预计的可视化需要的格式进行变换。

数据获取的方式:采用数据库技术,实现FMECA相关数据上报,汇总及审批,可输出报表,可用EXCEL和Python等处理。FMECA数据库模块风险分析功能,可输出指定格式的风险矩阵图、关键风险清单等,具备输入提醒、检查纠正等功能,存储数据106条以上,响应时间1 s。

1.2.2 FMECA数据探索及预处理

数据探索和预处理主要是将数据中产生的数据孤立点、空缺以及不一致问题及时解决[12]。具体来说数据探索包括检查数据错误和了解数据分布特征以及内在规律;数据预处理包括数据清洗、集成、变换和规约。最常见的问题是数据值缺失,处理手段为删除和填充。填充方式包括固定值、均值,中位数/众数、上下数据、插值函数和最可能值等。

实例分析中,FMECA表格中各项数据较为完整,缺失值有两处,分别为温度采集模块的模数转换器中失效模式为模拟输出失效对应的故障原因和基本维修措施,根据其他模拟输出失效的数据,分别填补为老化和更换新元件。失效原因中有些原因包含好几种,如焊接故障或烧毁、焊接故障或击穿,在这里将这些统一归为焊接故障或击穿、烧毁、损坏。

在大部分数据预处理工作中,由于前期数据数量巨大且繁杂,很多需要手动处理,耗时费力。但只有前期数据处理得当,后续建立的模型才能够达到最好的分析结果。

1.2.3 FMECA数据分析与挖掘

(1)故障模式及风险等级综合分析(基于数据库的统计分析)。

(2)风险等级评估带状分类散点图及故障模式细化(基于故障模式统计分析)。

(3)故障影响层次关系分析。故障影响是指故障模式导致产品和设备表现出直观的状态变化,故障影响一般分为局部影响、高一层次影响和最终影响3个层次[13]。建立故障影响层次关系图,需要注意:①故障影响层次关系图是将导致的最终影响归为一类;②由于篇幅影响,将个别有交集的局部影响拆开分析;③最上一层是局部影响,中间一层是高一层次影响,最下是最终影响;④红色箭头代表递进关系,箭头上的数字代表上一级导致下一级故障影响所占比例。

(4)改进的风险矩阵分析。矩阵中从左下至右上的虚线为一个判断标准,如果虚线左上方颜色深且密度大则说明产品较可靠,如果虚线右下方颜色深且密度大则说明产品还有需要改善的问题。

(5)改进FMECA数据挖掘及分析的Python实现。

Pandas和Numpy提供了大量快速便捷地处理数据的函数和方法,是使Python成为强大而高效的数据分析环境的重要因素之一[14]。利用Pandas和Numpy对FMECA表格进行上述操作。

1.2.4 FMECA结果分析与展示

Matplotlib与Seaborn是Python中最常用的可视化工具, 可以非常方便地创建高质量的不同类型的二维、三维图表[15]。ECharts是一个易于使用的来构建交互式可视化的框架。其特点为:便于操作,同时允许用户关注可视化的设计;丰富的内置交互,有效的数据探索和分析需要大量可配置的交互;高性能,通过引入流系统架构和增量渲染模式,ECharts实现了高性能[16]。对于FMECA风险清单结果分析,在完成数据分析与挖掘后,调用Matplotlib、Seaborn和ECharts进行相关可视化分析。

所提出改进的FMECA方法,采用Python和数据库技术进行实现,并提出了相应的算法,其技术路线如图2所示。

图2 技术路线及主要步骤

2 基于数据挖掘的FMECA改进实例分析

以《WDM5010A型彩色液晶显示模块FMECA分析报告》(Q/AFF-Y35-06.04)为例,采用改进的FMECA方法进行分析。

背光单元FMECA分析约定层次图和风险指数矩阵如图3和表1所示。

图3 背光单元FMECA分析约定层次图

表1 风险指数矩阵

2.1 故障模式及风险等级综合分析

作为一种从实践项目总结出发,以故障模式为基础,以故障影响为技术分析手段的科学分析法[17],FMECA通过分析故障模式不仅能够明确分析对象,确定所分析部件的功能,所有存在的故障模式,而且为接下来的故障影响分析和危害性分析打下基础[18]。该背光单元分为电源和背光模块,其中背光模块又包括电源检测模块、温度采集模块和LED背光灯驱动模块,4个模块共包含119个故障模式。

故障模式是由故障原因导致的,维修措施又是由故障原因和故障模式综合决定的,故将故障原因、故障模式以及维修措施一起分析。具体故障原因、故障模式和维修措施种类及占比如图4所示。

从图4可以看出,故障原因分为有两种,即老化或温度变化和焊接故障或击穿、烧毁、损坏。这些故障原因引起了各种失效模式。其中参数漂移、电参数漂移、(电的)开路、(电的)短路及触点断开所占比例较大,个数分别为16、15、19、21和15。维修措施有3种,分为选用高等元器件,降额、更换元件和重新焊接。前两个占比较大,所以该显示模块应备有足够的更换元件作为维修的主要手段。将故障模式与风险评价等级结合建立风险等级评估带状分类散点图,如图5所示。

图4 故障原因、故障模式和维修措施种类及占比

图5 风险等级评估带状图

根据风险指数对应的处理原则,风险评价指数为1~5是不可接受的。从图5可以看出,大部分故障模式的风险指数都大于5(图5中红线之上),但每个故障模式都存在个别产品或功能存在低于5的情况。每种故障模式都可以展开分析,由于篇幅原因,只分析参数漂移模块。分析可知:参数漂移是指产品参数由于时间、温度、压力、湿度、振动或电磁环境等因素的变化而发生的变化。参数漂移和电参数漂移具有相同的规律。参数漂移和电参数漂移主要是由老化或温度变化导致,维修措施基本为选用高等元器件、降额。参数漂移和电参数漂移的风险评估等级柱状图分别如图6和图7所示。

从图6可以发现,故障模式为参数漂移的产品共有16个,但风险等级普遍偏低,并且没有不可接受(风险指数为1~5)的产品,除了2个(片式膜固定电阻器RMK2012-0.1 W-1 kΩ和RMK2012-0.1 W-75 kΩ±1%)的风险指数是6之外,只有1个产品风险指数是13(对应风险指数矩阵,即危险发生可能性和危险严重等级为(A, IV),经常发生但影响可以忽略)。其他很多产品的风险指数都集中在11、14、19,对照风险指数矩阵可以发现,它们的危险严重性等级和危险发生可能性都是偏低的。

图6 参数漂移风险等级评估

从图7中可以发现,故障模式为电参数漂移的产品共有15个,但风险等级起伏很明显,并且不可接受(风险指数为1~5)的产品有3个之多,风险指数是6的产品也有3个,产品的风险指数普遍集中在3、5、6、10、11、18,对照风险指数矩阵可以发现,其中风险指数为3、5、6、10的危险严重性等级都是II,而6、11、18的危险发生可能性又都是C。可以看出两边的交集是6这个风险等级,它可以表示整个电参数漂移风险等级评估。

图7 电参数漂移风险等级评估

分析可知:故障模式为参数漂移的危险严重性等级和危险发生可能性都是偏低的。故障模式为电参数漂移的危险严重性等级偏高,危险发生可能性处于中等位置。对比参数漂移和电参数漂移的风险等级评估柱状图可以明显发现较大的差别,虽然故障原理相同,但是无论是比较危险严重性等级还是危险发生可能性,参数漂移都普遍比电参数漂移低,说明在电源和背光灯模块中,用电设备是更容易发生故障的,且如果发生故障也越危险。

2.2 故障影响层次关系分析

以背光灯驱动模块为例,其故障影响层次关系如图8所示。从背光灯驱动模块故障影响层次图(图8)中可以发现,最终影响为显示器失效和显示器工作不正常是由较多因素导致的。对显示器失效影响较大的高一层次影响有背光灯常闭和背光灯驱动电路失效,占比分别为40%和30%,局部影响分别为信号直接接地和隔离及反馈电路失效。结合FMECA表,可以发现导致该影响的主要故障模式为(电的)短路,主要元件为片式电容和放大器。其中不稳定因素最高的产品器件为CT41L-12-06-2C1-50 V-104,该元件的风险评价为4,对应的风险评价矩阵为(I,C)。显示器工作不正常主要是由背光灯运行不稳定造成的,占比为83.34%,其中局部影响主要为对特定频率信号的滤波性能变差和滤波功能丧失。该部分的风险评价都较高,基本都在10以上,只有一个评价为5,也是CT41L-12-06-2C1-50 V-104该元件。在背光灯驱动模块中,该元器件使用较多,且都是导致显示器失效和显示器工作不正常的因素,应当改进和升级该元件。

从整个故障影响层次关系图(图8)可知:背光驱动和电源作为主要工作模块,也是故障影响种类较多的模块。同时风险系数较低的故障存在于这两个模块,维修和保养时应作为主要目标。

图8 背光灯驱动模块故障影响层次关系图

2.3 改进的风险矩阵分析

作为FMECA分析中常用的一种分析方法,风险矩阵通过将风险发生可能性与严酷度(危险严重性等级)等级相结合输入二维平面坐标系中,形成风险矩阵。传统风险矩阵根据原点到垂足(故障模式坐标向对角线引垂线的交点)的距离,衡量故障模式危害度大小。但改进的风险矩阵图将坐标图一分为二,只需根据坐标点的颜色和密度就能知道相对应故障模式危害度大小,具有更好的视觉冲击,使得相关工作者更能注重危害度大的故障模式。改进的风险矩阵如图9所示。

图9 改进的风险矩阵图

根据风险矩阵的分布情况发现,危险发生可能性为A的故障模式只有3个,分别在Ⅰ、Ⅱ、Ⅲ各有一个,危险发生可能性为B的故障模式也是较少,故障模式的危险发生可能性主要集中在C和D中。而故障的危险严重性等级主要集中在Ⅰ和Ⅱ,但也主要分布在危险发生可能性的C、D和E中。其中严重性等级为Ⅱ,可能性为C的故障模式是所有故障模式中最多的,对应的风险评价等级为6。

综上所述,改进的风险矩阵图能够以一图而知全貌。在虚线左上角的数量还是比右下角的数量多一点的,密度也更均匀。尽管I、II级较多但是大部分风险等级是在改进后可以接受的范围内。

3 结论

(1)将FMECA与数据挖掘及可视化三者结合,通过图像的形式,将数据直观的输出,使得相关工作者一目了然,更进一步了解操作设备,能快速发现相关设备的问题所在。

(2)与传统的FMECA工作表格分析方法相比,改进的FMECA能够充分利用表格数据,关联相关数据,组合相关因素,从而发掘更加有用的信息;既节省了时间又节省了精力,符合设备信息化,数字化及智能化的趋势;分析结果准确,极大提升了效率,为设备可靠性、安全性分析奠定了坚实的基础。

猜你喜欢

数据挖掘矩阵模块
28通道收发处理模块设计
改进支持向量机在特征数据挖掘中的智能应用
“选修3—3”模块的复习备考
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
多项式理论在矩阵求逆中的应用
软件工程领域中的异常数据挖掘算法
矩阵
矩阵
矩阵