APP下载

聚类算法在部队被装号型制定中的应用研究

2020-01-03王志刚吴智威江勇

现代计算机 2019年33期
关键词:质心后勤聚类

王志刚,吴智威,江勇

(湖南师范大学信息科学与工程学院,长沙410081)

0 引言

部队被装管理是后勤的一项重要工作。被装的适体率和准确率关系到部队军人的生活质量、军人形象和战斗力。传统被装管理时常发生少、漏或错发等现象,被装不适体等问题更是普遍。随着信息技术的快速发展,部队的指挥和管理体系也快速地朝着数字化和信息化领域转型,并且取得了巨大的成就[1]。其中,后勤被装管理系统已由手工卡片记录的传统方式转变为计算机信息系统,很好地解决了数据存储和传输方面的问题。但是在信息采集和更新方面仍然以人工管理为主。随着部队现代化建设的不断深化,被装种类也在不断增加,对管理也提出了更高的要求,对提升被装管理现代化水平具有重要意义[2]。

随着按尺寸制作(Made To Measurement,MTM)概念的出现,被服的号型设计、生产也可以走量身定制、数据自动采集和三维试衣系统方向发展,全面实现信息流、资金流和物流的网络化与生产精益化,达成多方同步作业、产品展示与量身定制的全流程自动化管理。为部队制定符合军人体型特点的号型表,定量投产,避免号型断档和仓库积压等现象。

1 研究现状

早在上个世纪的50年代美军后勤系统就尝试计算机管理,并于1970年代建成涵盖物资储备和补给管理的后勤保障信息化系统。同一时期,美空军基于第三代信息技术建立的后勤计算中心投入运作,并实现了与各个职能部门对接,形成了从国防部到师一级的统一后勤管理系统。在1990年代,美军又建成了后勤专用网络,后来发展成为全球最大的后勤信息系统[3]。海湾战争之后,美军后勤在原有管理系统基础上,以可视化为目标对原有系统升级,全军信息互联互通,后勤物资可视程度达到90%以上[4]。

在伊拉克战争中,美军依托全球资产可视系统之上的后勤指挥自动化系统,实现人员、物资和装备状态的实时跟踪,集合了全军物资系统、运输管理系统、智能识别技术和决策辅助系统,基本做到后勤保障全程可视化,极大地提高了后勤效益[5]。从2012年开始美军将商用移动通信设备应用到了国防领域[6]。为了利用大量已有数据,美国防部设立了“数据到决策”项目,将海量数据转换为可用于决策的知识,达到辅助决策目的[7]。

文献[8]提出的系统采用C/S结构,该设计虽然在系统安全性上有优势,但是在维护更新上存在较大难度。文献[9]提出了B/S结构的公安被装管理系统,提高了被装管理的效率,但是这个系统是针对公安部门设计的,在业务流程和管理方式方面与部队特殊的需求有所差异。文献[10]提出了一个类似于“网购”的部队被装自主申领系统,军人使用系统内定期划拨的虚拟货币购买被装,这种管理形式具有一定的灵活性,但是用虚拟货币自主“网购”申领物资对部队内务管理所产生的影响还有待考究。

实践方面,在部队被装管理业务上,我国部队当下使用的被装管理系统是面向后勤部门管理人员使用的一个单机系统,对量体数据还停留在手工采集的阶段,这种方式使得管理员收集和录入数据工作量大且出错率高,更改、更新数据比较不便,被装适体率难以满足要求且容易出现被装管理工作的混乱。对普通军人而言,广大军人无法获取个人被装的状态信息,发放透明度不高,难以做出合理规划;无法及时更新量体数据,被装适体率随着体型变化而下降。对量体数据而言,目前已知的部队被装管理相关应用中还没有对量体数据实施数据挖掘用以制定被装号型、预测号型分布的案例。

2 被服管理决策辅助过程

通过数据挖掘实现优化被装号型和预测号型配比两大功能,辅助制定被装投产计划,在提高被装号型的适体率的同时控制成本。其中优化被装号型是采用聚类分析方法,预测号型配比采用数据挖掘的时间序列分析方法。决策的过程如图1所示。

图1 决策辅助流程

数据仓库采用“三层结构”,分别为数据获取、存储和分析逻辑层。模型如图2所示。

图2 数据仓库模型图

因为某些未知的原因可能导致数据产生噪声、空缺或者不一致,为了获得高质量的数据挖掘结果,需要首先进行数据预处理。

(1)数据清理。对于空缺值,用相同属性的数据求平均值替代。对于随机错误数据,采用“分箱”方法对其进行平滑;对于异常数据,用其附近数据的平均值替换,并进行局部平滑。

(2)集成和变换。数据挖掘所需要的初始数据有限时,可以从其他数据源导入,包括老式被装管理系统保留的数据、连队的统计数据、新兵入伍的登记数据等。针对这些来源不同的数据,先进行数据集成和统一格式,然后进行匹配、检测和剔除重复数据。

(3)离散化分区。利用离散化技术,把连续的各类量体数据分割成若干个区间,区间大小取决于拟生成号型的个数。

(4)规约。排除与数据挖掘不相关的属性,如年龄、职务等基本信息。对数据进行编码,并进行压缩,以利于提高数据挖掘的效率。

3 聚类方法制定被装号型

量体数据是不均等密度连续分布地、合理地被装号型表应满足两个要求:①适体性需求,亦即最大限度地使更多军人能匹配到合适的被装号型;②兼顾效益,在满足①的基础之上,号型数量应尽可能少[3-4]。

3. 1 K-means聚类算法

综合各类算法的优劣,K-means算法较适合用于被装号型的聚类,具体方法是给定一个输入量k,把n个数据对象分成k个聚类,使得同一个聚类内的相似度尽可能高,不同聚类之间的相似度尽可能低,相似度是依据各聚类的均值“中心点”来计算的。K-means方法首先是随机选取k个数据对象,以这k个对象为起始的质心,然后计算其他对象到质心的距离,找出距离最小的数据对象并赋值,作为新的质心,然后再重新计算每个质心的平均值,反复进行这个过程,直到标准测度函数收敛为止[3-5]。

3. 2 K-means算法的改进

K-means算法比层次聚类的计算速度更快,处理海量数据的效率较高且可伸缩,得到的聚类更加紧密。但也存在不足:一是对k的初值比较敏感,不同的初始值会产生不同的结果;二是采用随机选取k个点计算均值,没有明确获取初始化均值的方法;三是不易发现差别较大的聚类;四是对于孤立点和“噪声”比较敏感,从而影响聚类结果。

针对K-means对噪声敏感的问题,选用聚类中最居中位置的点取代聚类的平均值作为初始质心。思路是首先随机地选择每个聚类的参照对象,其它对象根据与参照对象的距离划分给最近的聚类,然后重新选择质心。不断重复这个过程,以获取更高质量的聚类。

改进后的算法:

(1)INPUT:包含n个元素的数据集,聚类个数k;

(2)OUTPUT:k个聚类质心;

(3)任意选择k个元素作为初始的质心;

(4)将剩余对象赋值给最近的聚类;

(5)遍历聚类元素,用准则函数值最小的元素更新质心;

(6)重复(4)、(5)步骤,直到算法收敛。

4 实验分析

实验从某部现役军人被装数据库选取1000人的量体数据进行聚类。

合理的被装号型表是保障适体率的重要基础。本文用CH(Calinski-Harabasz)指标确定号型数,用改进的K-means算法选择聚类中心,找出合理的中间号型。

(1)选择特征值

选择身高、胸围、肩宽、腰围、臂长等指标作为聚类的特征值。

(2)确定聚类个数

对于有n个样本的集合,可以划分聚类个数k的范围是 2≤k≤。首先参考CH指标估计聚类个数如下:

其中:

P是Ci集合内的元素,xi是Ci集合的聚类中心,xˉ是元素均值。聚类个数要同时兼顾节约成本和聚类质量,在合理的范围内,当CH数值越大,聚类的效果越好,被装适体性越高。当CH随聚类个数k单调递增,意味着聚类个数越多,聚类效果越好。本实验设定聚类个数k=25。

(3)实验与分析

①用改进的K-means对样本集合实施聚类,结果如表1所示。

表1 聚类结果

②求相对平均偏差

分别计算1000个样本与传统和聚类号型表的对应号型规格数据集>2%的相对平均偏差,结果如表2所示,对于选定的5个参数,聚类号型的相对平均偏差更小,因此根据聚类号型表生产的被装也将更加适体。

表2 相对平均偏差对比

(4)决策价值

可以直接把聚类号型作为被装的版型进行投产,对于聚类号型表覆盖不到的特殊号型可以从传统号型表中选取补充,以保障被装号型有更高的覆盖率。

5 结语

军人被装的量体定制是提高被装适体性的现实需要,也能有效地减少浪费、降低成本和提升后勤管理水平。本文运用K-means聚类算法分析某部军人的量体数据,把关键特征参数相近的归为一个号型,得出符合该部军人体型特征的号型表。该方法对于非特殊部队被服的定型与投产具有普遍的参考价值,在很大程度上可以提高军人的被装适体率,能有效避免号型断码和冗余等管理问题。

猜你喜欢

质心后勤聚类
一种傅里叶域海量数据高速谱聚类方法
重型半挂汽车质量与质心位置估计
煤炭企业后勤创一流对标管理研究
基于GNSS测量的天宫二号质心确定
一种改进K-means聚类的近邻传播最大最小距离算法
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
基于近邻稳定性的离群点检测算法
巧求匀质圆弧的质心
信息化视野下高职院校后勤管理优化路径分析
ViolationsoftheTraditionalBioethicsinNeverLetMeGo