APP下载

大规模集群硬盘故障预测可迁移性研究

2024-02-27胡思源徐尔茨李东升张一鸣

小型微型计算机系统 2024年2期
关键词:硬盘设置预测

胡思源,徐尔茨,2,李东升,2,刘 锋,2,张一鸣,2

1(国防科技大学 计算机学院,长沙 410000)

2(国防科技大学 并行与分布处理国防科技重点实验室,长沙 410000)

0 引 言

硬盘驱动器(HDD)仍然是支持现代企业计算和科学发现的关键驱动因素—它们位于大型数据中心.不幸的是,HDD不仅是数据中心最常被更换的硬件组件;它们也是服务器故障的主要原因[1].硬盘的故障会导致数据丢失、服务不可用、运营成本增加和经济损失[2,3].在现今云计算和大数据的不断普及的情况下,硬盘规模也快速增加.对于配备高端磁盘且磁盘年故障率仅为1%的数据中心[3],管理员每天需要处理数百次磁盘故障或者更换.

研究者们早期为存储系统设计了容错技术,但多是在硬件故障发生后进行被动容错,例如冗余技术.然而,随着计算机技术以及信息技术的快速发展,大规模存算系统(例如大规模超算中心)内存储的数据越来越多,因此带来存储系统可靠性和可用性的巨大挑战,被动容错技术无法再满足大数据时代的存储可靠性需求.为了构建高可靠和高可用的存储系统,系统设计者以及存储领域研究者越来越关注存储系统可靠性预测研究[4].

存储界在过去的时间里投入了大量精力来提高磁盘的可靠性,尤其是预测硬盘故障[5-10].从研究中可以发现,硬盘故障预测的质量高低取决于两个关键因素:

1)数据集的收集.硬盘故障预测的研究过程伴随着数据与硬盘规模的增长,研究者们采集的数据集规模从最初不到2000块硬盘[11]发展到高达380000块硬盘[12],而随着数据集规模的增加,也能得到更多用于预测的故障样本,从而进行更充分的训练,得到更精确的结果.

2)预测模型的采用.如何更好地利用故障硬盘的数据样本是我们应当着重关注的.在研究初期,研究者们采用直接设置阈值的方式对即将发生故障的硬盘进行预测,但显然效果并不显著.随着进一步研究,基于传统统计学方法的模型被应用于故障预测,相比单一阈值方法提升了一大步.近年来,机器学习与深度学习的广泛应用也为故障预测领域的研究提供了新思路,以硬盘故障前的属性数据作为特征预测硬盘故障发生的可能性成为了主要方法.

随之而来的是新的缺陷与不足.机器学习和深度学习模型的快速更新为我们提供大量方法的同时,也提出了模型可迁移性强弱的挑战,某一种模型在某一数据集中实现的良好预测性能,是否能够很好的迁移到其他数据集中尚未可知,面对不同数据集可收集的不同数据特征,是否能够继续较好的完成训练;其次是数据集在预处理方面,对数据集采取何种预处理方式能最大限度的帮助预测模型进行高效率的训练,得到高精度的结果;最后是不同模型在各自参数设置上,面对不同数据集不同规模,如何设置与之匹配的合适的参数来达到较好的训练效果.

针对以上存在的问题,本文的主要工作如下:

1)我们收集并制作了4种不同的硬盘故障相关的数据集,其中包含数据中心与超算中心、HDD与SSD不同的数据集.同样的我们总结并实现了基于传统统计方法、机器学习和深度学习的故障预测模型以用来进行实验,将以上各数据集与各模型进行交叉实验得到结果,我们发现各个模型中LightGBM可以取得较高的精度;并且不同数据集也具有一定的相似性,为模型迁移带来更高的可能;

2)我们对各个数据集在故障前回溯时间长度上采取了1天、7天、14天、28天4种不同收集方式;对各个数据集在故障健康平衡比上采取了1、2、5、10这4种不同比例.每个数据集以16种规模进行实验,我们发现数据集平衡度设置在2~5之间,回溯时间设置在7~14天之间能得到较好的预测结果;

3)我们针对不同模型在各自关键参数上进行了修改,包括决策树个数、最大限制深度等,并进行实验,我们发现但各模型对各自参数设置并不敏感.

1 数据集分析

此章节将介绍我们所收集的4种不同的数据集,并分别描述他们各自的数据特点.它们将涵盖数据中心与超算中心、HDD与SSD、公开数据集与我们自己收集的数据集等不同类型,在第4节的实验中作为不同模型进行交叉验证的数据源.

1.1 数据集

Backblaze数据集.Backblaze公司是一家计算机备份和云存储服务提供商.自2013年以来,Backblaze每年都会公开发布他们的数据中心所使用硬盘的S.M.A.R.T.日志数据,有效地推动了使用机器学习技术进行硬盘故障预测的发展.

我们选取了Backblaze2020年公开的HDD日志数据[13],大约监控了16万个硬盘,其中涵盖了4家制造商共23种不同型号的硬盘类型.该数据源统计了各个硬盘的常见SMART属性与故障硬盘发生的时间.

Wayne State数据集.Sidi Lu和Bing Luo提出的使硬盘故障预测更智能的模型中[12],除了统计硬盘的SMART日志数据外,同时加入了硬盘的性能数据(包含硬盘级别和服务器级别)和位置数据并形成了数据集.该数据集覆盖了产自5家不同制造商的分布在64个数据中心站点的38万个硬盘大约近70 天的数据.

表1 Backblaze数据集类型Table 1 Backblaze datasets

阿里巴巴数据集.由阿里巴巴数据中心公布的数据集包括HDD数据集和SSD数据集[14].HDD数据集是阿里巴巴数据中心2018年统计的约20万个硬盘的日志数据,主要包含其SMART属性数据及错误报告日志.而SSD数据集包括来自3家供应商的11种驱动器型号,这些SSD数据集基于两年(2018年1月~2019年12月)的SMART日志、故障单、位置和应用程序,可惜的是它未按照时间序列进行持续性收集.

天津超算中心数据集.这是我们根据在超算中心上部署的硬盘故障监控系统和收集程序,得到了一共约2300块硬盘的SMART日志数据,此数据集在规模上具有明显劣势,提供的故障样本也比较有限.

1.2 数据集特点

传统的硬盘故障预测技术是基于以硬盘SMART监控数据作为特征的方法实现,因此此次多个数据集均包含了硬盘的SMART日志数据.其中,Backblaze和阿里巴巴数据集拥有几乎所有的SMART属性,而Wayne State和超算中心的数据集仅收集了部分在故障预测方面比较特殊的的SMART属性.

特殊性是指并非所有的SMART属性都与硬盘故障预测强相关,部分属性在提升预测性能和精确度上的作用比较微弱,由此在硬盘故障预测这一技术上也提出了寻找强相关属性特征的要求.

在这一要求下也有了不同方法来筛选与故障相关性强的属性特征.例如使用斯皮尔曼秩相关系数(spearman rank-order correlation coefficient,SRCC)[15],根据每个属性特征的变化与故障的发生情况判断其相关性强弱[16];以及使用J系数索引的方法,通过找到一个阈值使得某个属性特征能够在预测的真阳性率(truepositive)上获得较高的J索引值,如果这个阈值存在,那么该属性特征与故障相关性强[12].

根据此前的研究并综合所有数据集中统计到的属性特征,最终我们决定了表2所展示的SMART属性作为我们的特征输入.

表2 SMART属性Table 2 SMART atributes

此外我们特别关注的是各个数据集来源硬盘的年化故障率情况,如表3展示,可以帮助掌握各数据集所属硬盘的整体磨损度、故障频率等特点.

表3 各数据集年故障率Table 3 Annual failure rate of each data set

2 预测模型分析

在本节中,我们主要介绍交叉验证实验中所用到各种模型,基于传统统计学方法、机器学习、深度学习等.

2.1 发展过程

存储设备故障预测作为数据中心主动运维的核心手段,可有效降低存储设备故障发生的概率,同时还能减少数据恢复开销,提高存储系统整体可靠性,一直备受关注[4,17].目前,存储设备的故障预测主要涵盖两个方面:基于存储设备故障预测和基于预测结果的主动式故障干预.

针对存储设备故障预测经历了两个阶段:

1)主要是利用经典统计方法对故障进行预测.其中,Hamerly等采用了贝叶斯分类器对近2,000块硬盘进行了故障预测,发现该方法对比传统的单一阈值比对方法,能有效提高检测准确率[18].Hughes等通过Rank-Sum方法模型对共计4,000块硬盘的SMART日志进行了分析和预测,发现其能有效降低预测的假阳性比率[6].Eckart等采用马尔可夫模型对RAID系统内的磁盘进行了故障预测,获得了一批有价值的结论,特别是发现通过合理调节模型敏感度能够有效适应其他型号的硬盘[9].

2)工作主要依赖以新兴的机器学习和深度学习为主的人工智能手段.例如,Li等通过在大型数据中心中利用分类与回归树的方法,完成了对近3万块硬盘故障的高准确率预测[19].Agarwal等通过在规则基础上,通过迭代多种机器学习方法,实现了针对硬盘错误事件的预测,并取得了准确度非常高的预测效果.Mahdisoltani等和Xiao等在内的两个小组则同时采取了使用随机森林的方式对硬盘故障进行了预测.两者的主要区别是前者主要关注离线预测场景,而后者主要通过牺牲某些场景下的准确率,从而实现故障的在线实时预测.值得一提的是,Mahdisoltani等人还首次尝试了对于SSD硬盘进行故障预测,不过在进行了大量尝试后,他们发现所采用方法仅能满足定制化的SSD硬盘某些类型故障的预测[20,21].

2.2 模型介绍

我们此次选用的主要有以下几种预测模型.

贝叶斯[22]是一种用于分类任务的概率机器学习模型,基于朴素贝叶斯分类器原理.朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器,对于现有特征判断属于哪个类别的概率更大,但特征之间是相互独立的.

随机森林(random forest,RF)[23]和梯度增强决策树(GBDT)[24,25]方法是机器学习(ML)集成方法,都是由多颗树组成的决策树模型.两者也存在不同,随机森林方法采用Bagging集成学习,从原始数据集中采用bootstrap方法有放回的抽取训练样本,得到多个模型,然后以投票的形式得到分类结果,其中学习器可以并行生成训练,并且彼此之间不存在强依赖;梯度增强方法采用boosting集成学习,每一个新模型的建立都是使之前的模型的残差往梯度方向下降,因此只能串行生成,且存在强依赖关系.

LightGBM同样属于Boosting集成学习,其在GBDT基础上有了两道增强:

1)从GBDT到XGBoost算法,GBDT在拟合数据残差时只用到一阶导数信息,而XGBoost对代价函数进行二阶泰勒展开,得到一阶和二阶导数,并在代价函数中加入了正则项,使模型更加简单,避免了过拟合;

2)从XGBoost到LightGBM算法,从level-wise策略转变为leaf-wise策略,从exact算法转变为基于直方图的决策树算法,均有效节省了开销,但需要注意的是LightGBM算法需要做最大深度限制以避免过拟合.

长短期记忆网络(long short-term memory ,LSTM)[26,27]是一种时间循环神经网络(RNN),相比一般的神经网络来说,他能够处理序列变化的数据,能够在更长的序列中有更好的表现,适合于处理和预测时间序列中间隔和延迟非常长的重要事件.LSTM包括一个存储单元,它倾向于在相对较长的时间内保存信息,因此LSTM对于顺序数据建模是有效的,而硬盘故障数据正是以时间序列进行收集的.

总结来说我们将用到表4所列举的预测模型.

表4 预测模型Table 4 Prediction model

2.3 评估函数

对于各模型最终预测效果,我们采取几个主要分数进行评估,包括分类准确率(accuracy_score)、预测准确率(precision_score)、召回率(recall)、F 分数、马修斯相关系数(MCC).分类准确率是所有预测正确的样本比例(包含健康和故障),预测准确率是真阳性样本在所有阳性样本中的比例,召回率是成功预测为阳性样本的比例,F分数为预测准确度和召回率的调和平均值,马修斯相关系数是一个综合值,适合用来评估不平衡数据的预测结果.这些分数计算方法如下,其中TP、TN、FP、FN各自代表预测结果的真/假阳性、真/假阴性数量:

(1)

(2)

(3)

(4)

(5)

3 实验及发现

3.1 实验路线

针对硬盘故障预测模型可迁移性的问题,我们进行了多数据集多预测模型的交叉验证,我们着重关注以下问题,对其进行实验探究:

1)基于不同策略的预测模型在各数据集中的预测表现如何,哪种策略更具有优势?

2)对于数据集而言,故障样本与健康样本的平衡比例该如何设置,平衡比的大小与预测性能的变化如何相关?

3)对于数据集而言,硬盘发生故障前的多少时间内的数据作为预测输入的特征是更合适的,时间回溯的长短与预测性能是什么关系?

4)不同数据集之间是否存在显著差异,在同一预测模型中不同数据集的预测精度是否发生明显变化?

5)各预测模型对于超参数的不同设置,在预测性能上如何变化,能否寻找合适的参数设置.

3.2 实验设置

数据集设置.在数据集选用上,经过与我们对实验数据类型要求的对比,主要选用了4种数据集,即第1节中介绍的来自于Backblaze、阿里巴巴、waynestate和超算的HDD数据.其次在平衡度与回溯时间上对数据集进行了不同的预处理.

平衡度.在硬盘故障预测领域中所获取的数据有一个突出的特点在于数据的不平衡问题,因此数据集的设置需要与数据来源各自的故障率联系起来,通过下采样的方法整理出健康与故障硬盘数量较平衡的数据集.由1.2节中介绍的各数据集所属硬盘的故障率出发,我们共设置了平衡度分别为1,2,5,10 的数据集,即健康硬盘的数量分别是故障硬盘数量的1倍,2 倍,5 倍,10 倍.

回溯时间.研究表明,硬盘在发生故障之前,其性能数据将会发生一定程度的异常波动[12],因此选取时间序列上硬盘一段时间内的性能数据(例如SMART)作为数据集单个样本的内容输入到模型中来判断是否将要发生故障是行之有效的.那么最终模型输入样本数据的形式为统计的多个硬盘(包含健康与故障硬盘)一段时间内的性能数据的集合.

但是如何设置硬盘故障回溯时间长短尚未有明确结论,因此我们为数据集分别设置了4段回溯时间(1天,7天,14 天,28 天)进行实验,且采取以每天为粒度进行收集的方法.

模型参数设置.对于此次选用的5种基于不同策略的预测模型,均使用Python编程语言,通过sklearn库导入相关模型并运行.其次,在决策树个数和最大深度等模型参数上,进行不同的设置来探究其预测性能变化.

根据以往研究,选择使用5层交叉验证技术[28],这种验证技术可以评估机器学习模型的预测性能,同时避免过度拟合问题.每个数据集被随机划分为5个大小相等的子样本,每次取一个子样本作为测试数据集,其余4个子样本作为训练数据集.我们在训练数据集上拟合模型,在测试数据集上对其进行评估,并计算评估分数.之后用不同的子样本组合重复该过程5次,最后将5个评估分数的平均值作为每种方法的最终结果.

在各模型超参数设置上,根据Sidi Lu等人研究的通过使用保持办法探索超参数.Bayes的拉普拉斯平滑参数设置为2;RF与GBDT作为决策树模型,我们将探究其在树生成数量上分别为500,1000,2000时性能上的变化,而LightGBM则关注其最大限制深度所带来的的影响,分别设置为3,6和-1(不做限制);在LSTM模型上,使用具有4层和128个节点的LSTM模型,最后将迭代次数设置为32次.

3.3 实验1.平衡度与预测结果

将平衡度(健康硬盘数量与故障硬盘数量之比)从1增加到10,此时将故障回溯时间固定在28天,此回溯时间参照Han S等得到的实验结论进行预设置[16],后续实验也表明,回溯时间在影响故障预测结果上的能力并不强,因此此处回溯时间固定没有什么问题.事实上,我们也做了在其它回溯时间下不同平衡度产生的预测结果变化,整体变化趋势一致.

根据图1展示,Backblaze数据集在各模型上的预测结果:分类准确率(accuracy_score)的增长说明对于各模型而言,平衡度增加使得预测正确的硬盘数量在增加(其中包含健康和故障两种类型).然而除LSTM模型外,其余3个模型的召回率(recall_score)变化并不明显,说明故障硬盘的预测准确率与平衡度变化相关性并不强,分类准确率的增长主要是来自于健康硬盘的预测更准确,数量增加;与此同时,预测精确度(precision_score)的减少是因为健康硬盘样本增加,带来的预测失败的数量增多,但是故障样本的数量不变,也就是TP基本不变,FP在增加,由公式(2)得到预测精确度减少.

图1 Backblaze数据集平衡比增加时各模型预测结果评估(回溯时间为28天)Fig.1 Evaluation of prediction results of each model when the balance ratio of Backblaze data set increases (the backtracking time is 28 days)

尽管召回率变化并不明显,但是我们可以更关注MCC,作为评估不平衡数据的预测精确度的分数,可以启示我们如何设置平衡度大小.除开LSTM模型(该模型有另外一种现象,见下文),其余模型中MCC的趋势均随平衡度的增加先增长后降低,这种现象在阿里巴巴数据集中同样可以观察到,其区别在于Backblaze数据集中平衡度为5时预测效果最好,而阿里巴巴数据集最适平衡度为2.

在LSTM模型中观察到一个特殊的现象,无论是对于Backblaze还是阿里巴巴数据集,当平衡度从2增加到5时会出现一个较大的预测性能的降低,如图2所示,这说明深度学习模型在数据集的平衡度上,更倾向于健康硬盘与故障硬盘的数量规模相当.

图2 LSTM模型在两种数据集下预测性能随平衡度变化Fig.2 Prediction performance of LSTM model changes with the balance degree under two data sets

3.4 实验2.回溯时间与预测结果

对于不同数据集将故障硬盘的数据收集回溯时间从1天增长到28天,平衡比设置我们参照实验1得到的最适平衡比的结论,Backblaze数据集将平衡比固定在5,阿里巴巴数据集将平衡比固定在2.

图3展示了阿里巴巴数据集的不同模型预测结果,可以看出,在回溯时间增加的情况下,各模型的预测性能并没有明显变化.为了更精确,对我们所关注的召回率与MCC分数进行差异分析,将每一种回溯时间下的评估分数与最高值进行比较,得到表5、表6结果:每一种模型每一种回溯时间下,上面为召回率与该模型下最大值百分比差异,下面为MCC差异.从中可以看出,各模型在数据集回溯时间变化下,预测性能并没有形成一定的增大或减小趋势,表现最好的回溯时间也不定,可能是任一种长度.因此回溯时间与模型预测性能之间并没有明显的相关性.但是我们仍可以发现,在表5、表6共16行数据中,1天或28天所在列的数据出现一行中最大值9次,零值11次,这说明1天或者28天的回溯时间下,预测性能更容易达到最好或者最差,而7天和14天回溯时间下预测性能相对比较稳定.

图3 阿里巴巴数据集在不同回溯时间下各模型预测性能变化Fig.3 Prediction performance changes of each model in Alibaba dataset under different backtracking times

表5 Backblaze不同回溯时间下主要评估分数差异分析Table 5 Difference analysis of main evaluation scores under different backtracking times in Backblaze dataset

表6 阿里巴巴不同回溯时间下主要评估分数差异分析Table 6 Difference analysis of main evaluation scores under different backtracking times in Alibaba dataset

3.5 实验3.不同模型预测性能比较

对于基于不同策略的故障预测模型:统计学、机器学习与深度学习方法,关注其在预测性能上是否逐渐增强,我们在不同数据集上进行验证.图4(a)、图4(b)分别展示了两种数据集在不同模型下训练和测试的结果评估,根据实验1与实验2得到的阶段性结论,将Backblaze数据集设置平衡度为5,阿里巴巴数据集设置平衡度为2,回溯时间均设置为14天,我们认为这是能够使预测效果较好的数据集处理.

图4Fig.4

我们仍将召回率与MCC分数作为主要关注的评估分数.发现在3种不同类型模型中,基于统计学方法效果较差(尽管(b)中基于贝叶斯的模型召回率达到了1,但是这并不能代表它的预测性能优秀,因为MCC分数仍然很低),而深度学习模型并没有预想中比机器学习模型能更好的预测硬盘故障,在两种数据集中均可以观察到此结果.在3种机器学习模型中,LightGBM模型表现出更好的预测性能,RF模型次之.

事实上,除了在平衡度为2与回溯时间14为天下,以其他方法设置数据集,同样观察到LightGBM为预测性能相对最好的模型.

3.6 实验4.不同数据集差异

预测模型的可迁移性在过去的研究里存在的一点问题在于由于不同来源的硬盘数据集数据特点不同,是否无法让预测模型在数据集之间很好的迁移.我们选择LightGBM模型与LSTM模型进行测试,4种数据集中由于超算数据样本规模过小导致无法形成可观察的训练结果,将其他3种数据集的测试结果总结如图5(a)、图5(b)展示.

图5Fig.5

我们发现了有趣的现象:在LightGBM模型中,来源于Backblaze与阿里巴巴的数据集在预测结果上表现出了相似性,两种数据集的召回率分别为0.9158、0.9314,差异为1.6%,且MCC分数分别为0.7933、0.7918,差异为0.18%,这证明在不同的数据集之间,故障预测模型可能仍具有较不错的迁移性.但来源于Waynestate的数据集在LightGBM模型中表现出了相比于前两者数据集较差的结果,而在LSTM深度学习模型预测结果中,3种数据集表现出一定的差异性,特别是Wayne state的数据集在此时展现了比其他两种数据集更良好的结果.综上,我们认为不同数据集对预测模型可迁移性具有一定影响,但不能排除存在不同数据集在某些模型上能够有较好的契合性,这种情况下预测模型的迁移将变得更加容易.而天河数据集正如我们所预想的结果一样,由于样本量的缺失,模型预测结果无法提供分析依据(因为出现了完全相反的预测结果),因此未给予出结果展示.

除此之外,我们对Waynestate的数据集做了进一步实验,因为他们是唯一收集了硬盘性能表现(performance)数据的数据集.图6中展示了数据集添加性能数据与仅使用SMART属性时的预测结果对比发现,性能数据特征的增加能够明显增强各模型的预测能力,这也与Lu等人[12]得到的结论相匹配.我们认为事实上,不只是性能数据,模型预测能力的提升更得益于特征数量的增加,如果数据集能够收集到与硬盘自身性能相关的尽量多的数据,将会提供更精确的故障预测结果.

图6 Wayne数据集添加性能数据对预测结果的影响Fig.6 Effect of adding performance data on prediction results in Wayne datasets

3.7 实验5.模型参数与预测性能

最后对不同模型各自的参数进行调整,期望发现预测模型对参数的敏感性.但最终我们并没有观察到这种敏感性.图7中分别展示了两种数据集在3种模型中分别改变主要参数n_estiamtors从500、1000~2000,其各自的召回率和MCC分数大小,可以看到几乎没有性能上的变化.

图7 (a)Backblaze数据集在3种模型中调整n_estimators(b)阿里巴巴数据集在3种模型中调整n_estimatorsFig.7 (a)Adjusts n_estimators of three models in Backblaze (b)Adjusts n_estimators of three models in Alibaba

更精确结果如表7、表8展示,两种数据集在3种模型改变n_estimators参数情况下,召回率与MCC分数与最大值差异几乎维持在1%以内,最高不超过2%,可以说数据集对该主要参数无敏感性.

表7 Backblaze数据集在3种模型变参时主要评估分数差异Table 7 Difference of mainly evaluates when the parameters of the three models are changed with Backblaze dataset

表8 阿里巴巴数据集在3种模型变参时主要评估分数差异Table 8 Difference of mainly evaluates when the parameters of the three models are changed with Alibaba dataset

除此之外,我们为LightGBM模型固定n_estimators为1000情况下,改变其最大深度,观察性能变化.图8是两种数据集在LightGBM模型中改变最大限制深度的预测评估结果,尽管在不设置深度限制时,模型往往能得到最高的预测性能,但此时需要注意的在于是否出现了过拟合问题.因此我们不建议将模型深度设置为不限制.

图8 LightGBM模型改变最大深度带来的影响Fig.8 Impact of changing maximum depth in Lightgbm

3.8 实验6.SMART数据类型选择与结果不同

对于SMART智能属性,供查询的数据包括两种类型,一种是原始值(rawvalue),其直接展示不同属性特征当前状态下的具体值,例如通电时间为多少小时,重映射次数为多少次,温度为多少;而另一种是标准值(normalvalue),属性的这个数值是由当前原始值根据厂家所设定的计算公式换算得来,一般范围从0~255(或100),对于大多数属性而言,出厂时标准值设置为255(或100)时,表示状态良好,随着使用和损耗,标准值将逐渐趋近于0,表示状态降低.

因此,我们分别收集属性的两种数据值类型,各自制作数据集进行训练实验,探究其预测性能是否存在差异.我们发现了令人惊奇的结果:对于原始值而言,各数据集在各模型上能成功完成预测,尽管预测性能不一,得到不同质量的结果;但对于标准值,发现除了LightGBM模型仍能得到预测结果,其余模型将直接失去预测能力,表现为无法预测到阳性样本或者预测了完全相反的结果.

4 总 结

本文收集了4种不同来源的HDD故障数据集与5种不同策略的故障预测模型,进行交叉实验,进行故障预测模型可迁移性的研究:

1)在数据集平衡度和回溯时间处理上得到了结论,平衡度设置在2~5之间预测性能较好,回溯时间可以控制在7~14天能得到稳定的结果

2)在不同模型中我们推荐预测性能更高的LightGBM模型,需要注意的是这是在仅使用SMART属性时.如果能够收集到数据集的更多性能属性时,良好的深度学习方法比机器学习方法更能提升故障预测结果准确率

3)以往认为不同数据集存在性能、部署、应用等不同方面的差异,将难以实现预测模型的迁移,然而事实上,不同数据集之间存在一定的相似性,可以得到十分相似的预测结果,这将提高模型迁移的可能

4)预测结果或许对于模型的参数设置并不敏感,只需要设置合适的相关参数即可,但仍要注意的是不能将参数设为不限制,避免出现过拟合问题.

猜你喜欢

硬盘设置预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
中队岗位该如何设置
HiFi级4K硬盘播放机 亿格瑞A15
Egreat(亿格瑞)A10二代 4K硬盘播放机
不必预测未来,只需把握现在
我区电视台对硬盘播出系统的应用
本刊栏目设置说明
中俄临床医学专业课程设置的比较与思考