APP下载

部队装备新旧状态的大数据分析

2017-09-03王玉琢张建军

兵器装备工程学报 2017年8期
关键词:经度新旧废品

王玉琢,张建军

(海军工程大学 理学院应用数学系, 武汉 430033)

【信息科学与控制工程】

部队装备新旧状态的大数据分析

王玉琢,张建军

(海军工程大学 理学院应用数学系, 武汉 430033)

对已获得的模拟大数据进行了清洗和关联的预处理工作。以高程、经度、纬度、装备类型、部队种类5个方面作为影响因素,建立了3种方差分析模型,分别讨论了每种因素对装备新、堪、待、废4种状态的影响情况,以及各种因素联合起来产生的联合效应。通过计算相关系数,将每种因素与装备状态的关联程度进行量化比较。所得结论和提出的建议对部队的装备保障优化具有一定的意义。

数据预处理;单因素方差分析;无交互作用双因素方差分析;有交互作用双因素方差分析

近年来,随着互联网技术的飞速发展,军队信息化也得到加快,各种军事资源数据的采集、储存与利用,为部队的现代化建设和科学化管理提供了有力的支持与理论依据。但是面对海量信息,如何结合部队实际,真实高效地利用这些数据资源做好部队的装备保障与维护工作,是当前亟待分析解决的一个重要问题[1]。

装备的磨损消耗情况,是保障维护工作中常关心的问题,它除了与装备本身的耐用性、维护保养情况、使用频率这些因素直接相关外,还受到如气候条件这类因素的间接影响[2]。然而,出于保密等原因有些数据无法获得,即使这些数据是重要影响因子样本。为了便于研究,本研究基于已获得的模拟数据进行讨论,这些数据或许不是重要影响因子样本,但所用方法具有可复制性,结论具有参考性,可供有关管理部门借鉴。

1 数据采集

通过添加随机扰动项对原始数据实现模糊处理,本文获取了部分部队的地理位置及装备状态的模拟大数据。在大数据背景下,文中所用的检验统计量依大数定律仍可以反映出总体特征。部分数据如表1、表2所示。

表1中包含9439支部队的经度、纬度、高程3种地理位置信息。其中部队层次码采用多层变长的数字结构,两位一个层次,前1~2位为大单位名称编码,第3~4位为下一级单位名称编码,用来体现单位之间的上下级关系。如400009与400101属于同一级大单位,65020904与6502090203同属一个大单位,前者比后者高一级别。

表2中共有163178条装备状态数据,包含装备当前的新旧状况、购买日期、现有数量3类信息。其中装备层次码3位为一个层次,用来反映装备的类属关系和层次关系。如001001可能表示电脑配件大类中的液晶显示屏,001001001001可能表示该大类下的鼠标。装备新旧状况被划分为新、堪、待、废4种,分别对应内码01、02、03、04,用表3解释。

表1 部队地理位置信息

表2 部队装备状态信息表

表3 装备内码

2 数据预处理

基于该数据,初步判断影响装备新旧状况的可能因素有5种:部队所在的经度、纬度、高程、部队类型、装备类型。

2.1 数据清洗

1) 清除空间上无用的数据。

考虑到我国军事单位大部分位于国境范围内,所以可将境外的部队地理信息视为无效数据进行剔除。中国国境范围为最北端漠河53°33′N,最南端曾母暗沙03°58′N,最东端黑瞎子岛135°05′E,最西端帕米尔高原73°49′E[3]以此作为筛选依据,从表1中去掉324条数据,剩下9115条部队地理位置信息。

2) 清除时间上无用的数据。

表2中5年前数据量占比为0.15%,时间久远比重低,参考性不大。剔除掉此类数据247条后剩下162931条装备状态信息。

3) 清除信息不完整的数据。

通过比较发现,表2中有些部队层次码在表1中没有出现,即有些部队缺少地理位置信息,表1中有些部队层次码在表2中没出现,即有些部队缺少装备状态信息,这些数据对后续分析是无效的,需要删除。运用MATLAB软件进行两层循环遍历后,删除的不完整信息接近30%,缩减了后续数据分析的工作量。

2.2 数据关联

用EXCEL中的VLOOKUP函数,将处理后的两个表以“部队层次码”为桥梁整合到一个表中,最终该表包含87741条信息7个标题栏:部队层次码、装备层次码、装备状态内码、现有数量、经度、纬度、高程。

3 统计描述

3.1 装备状态的分类统计

装备的新旧状态为一个分类型变量,经统计4种新旧状态的可用装备总数比重依次为3.88%、94.73%、0.8%、0.52%,可见九成以上的装备均为堪用品,废品的比重最低。

3.2 各影响因素与装备状态之间的关联分析

3.2.1 地理位置与装备状态的关联分析

地理位置为一个三维连续型变量,首先对高程根据我国地貌特征划分为0~200 m、200~2 000 m和2 000~5 800 m 3类[3],代表平原、丘陵、高原3种地貌。然后在每个海拔段上对经度、纬度采用K均值法聚类[4],实现方位分区。综合考虑分区后各区拥有的单位数量,最终将低海拔、中海拔、高海拔再细分为7个区、4个区、3个区,总共聚为14类。

图1 低海拔7区划分

图2 中海拔4区划分

图3 高海拔3区划分

统计14个区域上各新旧状态的装备数量,可以通过折线图依次观察不同区域上的新品率、堪用率、待修率、报废率的波动情况。为了节省篇幅,这里通过一张百分比堆积柱形图(图4)反映变量间的比重关系,可见不同地理位置上的新品率、堪用率波动不大,待修率、报废率差异明显。

图4 不同区域下新旧装备数量比重

3.2.2 装备类型与装备状态的关联分析

经EXCEL分类汇总,表2中共有275种装备,分为001与002两大类别,且98%为001型。由于装备类型众多,选择数量最多的前5种装备为代表进行研究,这5种装备型号为001001001001,001001001002,001001001004,001001001006,001001004001,简记为A~E型。

统计这5种装备各新旧状态可用数量,绘制百分比堆积柱形图(图5),发现5种装备堪用率基本相当,其他几种差异都比较大,其中B、E型装备的废品率比其他几种要高许多。因此装备类型对装备状态存在影响。

图5 6类部队各新旧装备数量的比重关系

3.2.3 部队类型与装备状态的关联分析

部队层次码的首位数从4~9一共6个整数,代表着部队隶属的最高类别,可按首位数字将部队类型划分为6类。

统计6类部队下各种新旧状态的装备数量,绘制百分比堆积柱形图(图6)发现,6类部队的堪用率基本均衡,4字头部队装备的待修率和废品率比其他部队高出许多。因此部队类型对装备状态存在影响。

3.3 小结

本节对研究对象(装备新旧状态)和影响因素进行了初步的描述性统计,一定程度上反映了总体内在的规律和关联,为后续工作提供了思路。但要给出更具有统计学意义的结论,则需要利用模型和统计量做进一步的统计推断。

图6 A-E型装备中新旧装备数量的比重关系

4 建立模型及数据分析

4.1 高程因子对装备状态的影响分析

由于高程因子与其他因素之间相对独立,因此采用单因素方差分析判别法。此时将“高程”作为检验对象,不考虑其余因素产生的影响。

4.1.1 单因素方差分析判别模型[5]

1) 提出原假设与备择假设

H0:μ1=μ2=…=μi=…=μk,自变量对因变量没有显著影响;

H1:μi(i=1,2,…,k)不完全相等,自变量对因变量有显著影响。

2) 构造检验统计量

3) 进行F检验

对给定的显著水平α计算统计量F,判定F>Fα(k-1,n-k)是否成立,若成立拒绝H0,即认为各水平均值间有显著差异,否则接受H0。

4.1.2 建模与求解

通常情况下,新品与废品之间人们往往更关心废品快速报废的原因,因此本文列出以废品数为样本的分析过程,以新品数、堪用品数、待修品数为样本的分析只列出结果供比较。

1) 划分因素水平。根据上节对高程的聚类,将高程划分为3个海拔段,代表A1、A2、A3三种水平。

2) 统计每个水平下的样本值。以废品为样本,经筛选低海拔下有40种报废装备,中海拔下有72种,高海拔下有21种,每种装备的当前数量如表4所示。

表4 各海拔下报废品数量统计

3) 计算F统计量,做显著性检验。经计算F=4.492 663>Fα=3.065 839,故拒绝原假设,表明不同海拔下的废品数量之间有显著差异。

4.1.3 关系强度的度量

4.1.4 结果分析

以新品数、堪用品数、待修品数为样本做方差分析的结果如表5所示。

表5 高程对装备状态的影响情况统计

出现这样的结果主要是因为高海拔地区气象的特殊性。高海拔地区大气气压低,空气密度小,会导致设备的散热能力下降;高原地区昼夜温差大,使设备的密封结构容易破裂,外壳容易变形皲裂;此外,海拔到达5 000 m以上时,太阳的辐射强度比低海拔时高1.25倍,热辐射会对设备起加热作用,降低有机绝缘材料的性能等等,这些原因都会加快设备报废[7]。建议相关部门查找出设备快速报废的原因,有针对性的改进设备的设计,提高高海拔地区设备的使用寿命[8]。

4.2 经度、纬度因子对装备状态的影响分析

由于经度、纬度两者联合起来能描述部队的方位,两因素又相互独立,因此采用无交互作用的双因素方差分析法进行数据挖掘更有价值。

4.2.1 无交互作用的双因素方差分析法判定模型[5]

在该模型中,一个因素在行位置,有k个水平;另一个在列位置,有r个水平,行列因素的每一个水平都搭配成一组。若每个组合下对应着一个观察值xij(i=1,2,…,k;j=1,2,…,r),则xij看作是从行因素和列因素组合成的k×r个总体中抽取的样本容量为1的独立随机样本,其中这k×r个总体每一个都服从正态分布,且有相同的方差。

1) 提出原假设及备择假设

对行因素的假设H0A:μ1=μ2=…=μi=…=μk,H1A:μi(i=1,2,…,k)不全相等;

对列因素的假设H0B:μ1=μ2=…=μj=…=μr,H1B:μj(j=1,2,…,r)不全相等。

2) 构造行因素和列因素的统计量

3) 对给定的显著水平α做F检验

若FR>Fα,拒绝原假设H0,所检验行因素对观测值有显著影响;

若FC>Fα,拒绝原假设H0,所检验列因素对观测值有显著影响。

4.2.2 建模与求解

1)确定因素水平。将中国境内73°~135°的经度范围以5°为步长划分为12个水平,3°~53°的纬度范围以10°为步长划分为5水平;

2)统计样本矩阵。以废品为样本,依次筛选出落在第i(i=1,2,…,5)个行水平、第j(j=1,2,…,12)个列水平下的所有废品,统计它们的可用数总和作为xij,得到样本矩阵

例如矩阵中的x32表示纬度落在23°~33°、经度落在 78°~83°的所有废品数量总和为136个。

3) 计算FR,FC两个统计量,分别对行因素、列因素做检验。

4.2.3 关系强度的度量

4.2.4 结果分析

1) 经度对装备的4种新旧状态都有显著影响,而纬度只对新品有影响。这是因为我国地域呈雄鸡形状,经度跨越范围大,纬度变化范围小,因此经度带来的影响也应更大一些。

2) 4个多重相关系数R均大于0.5,说明两因素产生了较强的联合影响效应,验证了将两因素联合考虑的合理性,也表明不论装备是新还是旧,与地理位置均存在很大联系。

表6 经度、纬度对装备状态的影响情况统计

4.3 装备类型、部队类型对装备状态的影响程度分析

在日常生活中,根据长期的使用经验,人们对熟悉的产品存在着习惯性使用行为和习惯性购买行为,因此某种部队可能会对某型装备产生特殊“偏好”,这种偏好会对该型装备的磨损产生影响,即这两个因素并不是独立的产生作用,而是会对因变量产生新的附加效应,因此本节采用有交互作用的双因素方差分析法。

4.3.1 有交互作用的双因素方差分析模型[6]

1) 提出原假设与备择假设

① 对行因素提出假设;② 对列因素提出假设;③ 对交互作用项提出假设:

H0AB:μ1=μ2=…=μj=…=μr,

H1AB:μj(j=1,2,…,r)不全相等

其中,对行列因素的假设与无交互作用方差分析法相同,这里不再陈述。交互作用项若通过了假设检验,表明两因素的交互作用对样本产生了显著影响。

2) 构造检验统计量

行因素统计量

列因素统计量

交互作用项的检验统计量

3) 对给定的显著性水平α,分别计算统计量FA,FB,FA×B,若大于Fα拒绝原假设,小于Fα则接受原假设。

4.3.2 建模与求解

1) 确定因素水平。根据前文的分析,将部队类型按首位数划分为6个水平;对于装备层次码,它以3位为一级来反映层次关系,经统计它的位数只有5种类型,因此按位数的长短将装备类型划分为5个水平。

2) 统计样本矩阵。以废品为样本,在每个i、j组合水平下(i=1,2,…,5;j=1,2,…,12)都取定k=5,以等距抽样的方式统计出该组合水平下各种废品数量的总和作为样本值xij,得到样本如表7所示。

表7 不同装备类型、部队类型下废品总数统计

3) 依模型计算统计量,做假设检验。

4.3.3 结果分析

可以看到,第一,部队类型、装备类型对于装备各新旧状态均有着显著影响。这是因为不同数字头的部队职责划分不同,对于装备的使用频率也不尽相同,自然磨损程度会存在差异。而不同类型的装备在使用中的磨损程度也是不一样的,比如液晶显示屏显然要比鼠标键盘这类低值易耗品耐用得多。第二,交互作用均通过了显著性检验,且相关系数R交互均在0.4左右,说明两个因素对装备状态产生了较明显的附加效应,其中消费习惯可能就是产生该效应的原因之一。事实上,消费习惯现象是客观普遍存在的,在做统计分析时不可忽视这种现象,简单地将各因素视作相互独立加以处理,会导致统计结果与客观事实产生偏差、甚至出现相违背的情况。

表8 装备类型、部队类型对装备状态的影响情况统计

5 结论

本文基于已获得的模拟大数据,用不同的方差分析模型分别研究了5种因素对装备新旧状况的影响。建议相关部门若是在各项数据均完备的情况下,先采用主成分分析、因子分析法提取出主要影响因子,再研究它们对装备状态的影响情况。

[1] 尹承督,贾红丽,李卫东.大数据在部队信息资源管理中的应用[J].兵器装备工程学报,2016(8):118-121.

[2] 代恒,宋华文,王鹏.基于大数据的装备指挥决策问题研究[J].装备学院学报,2016(27):38-43.

[3] 李炳元,潘保田,韩嘉福.中国陆地基本地貌类型及其划分指标探讨[J].第四纪研究,2008(4):535-543.

[4] 蒋帅.K均值聚类算法研究[D].西安:陕西师范大学,2010.

[5] 贾俊平.统计学[M].2版.北京:清华大学出版社,2006.

[6] 戴金辉,代金辉.方差分析在跳水运动成绩管理中的应用[J].统计与决策,2016(22):80-82.

[7] 周琼方.高压电器设备的高原适应性要求[J].电器工业,2006(5):60-62.

[8] 胡连桃,魏东涛,罗广旭.高原环境下航空地面制氧设备的技术选择及改进措施[J].装备环境工程,2012(4):88-91.

(责任编辑 杨继森)

Big Data Analysis About the States of the Military Equipment

WANG Yuzhuo, ZHANG Jianjun

(Department of Applied Mathatics of School of Science,Naval University of Engineering,Wuhan 430033, China)

By cleaning and correlating the big data about the states of the military equipment, the post-processing data were obtained and five possible factors that affect the states of equipment were found. For the five factors, some fit models consist of the one-way ANOVA model, the no interaction two-way ANOVA model and the two-way ANOVA model with interaction were chosen to analyzed different kinds of impacts neither from each factor respectively nor from the interactions of several factors. By calculating the correlation coefficient, the correlation degree between the factors and the states of the equipment were measured and compared. The conclusions obtained and suggestions proposed form this paper had some certain significance for improving the guarantee ability.

pre-process data; one-way ANOVA model; no interaction two-way ANOVA model; two-way ANOVA model with interaction

2017-04-28;

2017-05-29

王玉琢(1984—),女,硕士,讲师,主要从事概率论与数理统计研究。

10.11809/scbgxb2017.08.027

format:WANG Yuzhuo, ZHANG Jianjun.Big Data Analysis About the States of the Military Equipment[J].Journal of Ordnance Equipment Engineering,2017(8):124-130.

O212.1

A

2096-2304(2017)08-0124-07

本文引用格式:王玉琢,张建军.部队装备新旧状态的大数据分析[J].兵器装备工程学报,2017(8):124-130.

猜你喜欢

经度新旧废品
耕读事 新旧人
对时差计算方法的探讨
新旧全球化
基于物联网的住宅小区废品回收系统
看看山东新旧动能转换怎么干
新旧桂系决裂之变
将互联网+废品拧成一股巨大的力量
从捡废品中受到的教育
巧用规律妙解“日期变更题”
如何计算地方时