APP下载

数据挖掘在装备储存和使用过程中的应用研究

2022-03-23马可欣李乔扬李籽圻高成强

火力与指挥控制 2022年2期
关键词:储存数据挖掘装备

马可欣,李乔扬,李籽圻,王 炜,高成强

(1.解放军61486 部队,上海 200072;2.火箭军工程大学,西安 710025)

0 引言

随着信息化的深入发展,智能化、无人化时代逐步到来,作战形式由传统的海、陆、空三位一体,逐步转变为海、陆、空、天、电(磁)等多维一体,战场环境态势更是瞬息万变。先进装备作为未来作战的核心支撑,对打击敌方重要目标和扭转战局等起着关键性作用。因此,必须完善装备储存和使用数据的管理与运用,深入开展相关技术研究与应用,为装备作战运用和管理保障决策提供科学依据。

为了战时急需,各类装备必须保持足够的储备量、达到要求的战备完好率,这就迫切需要对装备储存和使用过程中的管理保障进行优化。

装备数据的种类繁多、体量庞大,装备储存和使用过程中的管理保障优化需要充分利用各类数据。然而海量数据的价值密度较低,很多情况下,难以直接发挥价值。因此,需要通过一些先进的技术方法,从大量、模糊、有干扰甚至矛盾的数据中,提取隐含在其中但无法直接观测、却又具有潜在价值的信息和知识,即数据挖掘。

在装备储存和使用中应用数据挖掘技术,可以有效地解决模拟仿真、建模解析较为复杂和可信度低的问题。

1 装备储存和使用中数据管理与运用存在的问题

在装备的储存和使用中,已经获取并记录了大量的多类型数据,但是这些数据,并没有被有效管理、充分利用。如图1 所示,以装备测试数据为例,就存在以下主要问题。

图1 装备储存和使用中测试数据管理与运用存在的主要问题

1.1 缺少统一的测试记录数据(管理)库

目前,大部分装备的测试数据都记录在纸上,或者仅仅存储于专用的载体或数据库,并没有一个可以共享的数据库来储存和管理这些累积的测试数据,造成了人员、装备数据等资源的浪费。不利于分析测试数据的变化趋势和数据信息的应用,导致大量蕴含价值的数据被浪费,在战时也会耽误宝贵的保障时间,贻误战机。

1.2 各单元测试过程系统关联性不强

在对储存和使用的某些装备进行单元测试时,过程过于繁琐复杂,而对整个系统的贡献不够明显。同时,存在一些不同测试操作但具有相同目的和结论的多余测试问题。且在得到相关数据后,核查人员对各指标分别进行检验分析,简单地将所有指标的测试值与标准值进行对比,增加了工作量,忽视了指标数据间的关联性。若在战时,进行这样的数据普查,会增加装备准备时间,难以达到随时能战的要求。

1.3 相似问题没有进行归类分析管理

对储存和使用装备出现的故障和问题,都有完备的全流程解决方案,但从整体上来看,也都相对独立。没有对故障及问题进行归类分析和管理,现有分类方式较为简单粗糙,不利于在实际中进行故障排查和问题解决。为了对同类问题进行统一处理、对类似故障进行分类排除,合理分配系统资源,而不重复占用和浪费保障资源,需要对装备储存和使用中出现的相近或类似的故障问题和数据进行聚类分析、归类管理,对故障的问题类别不断评估和完善,再进一步优化分类,以持续提高装备保障效能。

1.4 实时状态监测缺乏预见性

在对装备状态进行监测时,可以得到表征装备健康状态指标的过去值和现在值。从监测记录中可以发现,装备过去的问题和关键指标的稳定性状况,据此对已发生的故障和问题及时修复和排除。但是,仅仅研究过去和现在的状态无法保证战时装备的可用性,因此,实时监测有必要但还不够。为了使装备在战时能够达成作战目的,研究的重点应聚焦于健康状态指标的将来值,即预测值。预测值越精确,战时决策准确性和可信性就越高,甚至可以决定一场战斗的结局。

1.5 关键部件故障状态判定滞后

大部分部件指标的测试值总是在一个正常区间内上下波动,偶尔会出现不在正常区间内的值,这都是常见的。但是对于一些关键部件,其异常的少量数据,即离群点,可能对于判断装备状态也是有价值的信息。这些离群点,可能表示装备设计中的缺陷,也可能是预示着装备状态变化或异常的一个转折点。然而按照传统的处理方法,就会忽略这样的离群点,等到缺陷或异常状态演变为故障时,再进行排查和处理,就显得相对滞后。因此,对关键部件测试数据的离群点加以关注和分析,有利于未雨绸缪,避免故障判定的滞后性,保证装备必要的战备完好性。

1.6 装备数据应用于作战决策形式单一

现有的装备数据应用于作战决策的形式较为简单,即将测试数据与正常值对比,以判断装备的合格率,从而开展装备维修、补给保障活动。对于决策者而言,装备数据分析结果表现形式单一,不利于指挥决策以及装备管理优化。

2 基于数据挖掘的装备储存和使用总体架构

为了解决装备储存和使用中数据管理与运用存在的问题,需要运用现代信息技术,优化装备储存和使用。设计基于数据挖掘的装备储存和使用总体架构如下页图2 所示,主要包括数据收集层、数据存储层、数据质量分析层、数据预处理层、数据分析层和数据应用层。

图2 基于数据挖掘的装备储存和使用总体架构

2.1 数据收集层

数据收集层采集的数据通常是多源异构的,主要来源于平时的测试数据、使用与维修数据、日常管理与统计数据、监测传感器采集数据等,通过传感器和数据采集系统,获取装备在储存和使用中的有关参数指标数据,还要收集一些局域(部分装备或部分单位)的相关数据库资料,形成总的装备状态数据库。为了解决数据源多样、数据体量庞大、数据值持续更新等问题,数据收集层可以在数据源和数据库之间构建数据收集Agent 网络。为了保证数据的安全,可以采取必要的安全加密措施。数据采集过程中,对一些连续性参数,可以根据实际需要采用抽样方法,采集离散的数据点。常用方法包括简单随机抽样、系统抽样、整群抽样和分层抽样等。这些方法都属于单阶段抽样,应用时需要根据实际情况将抽样过程划分阶段,分别进行抽样,即多阶段抽样,如图3 所示。

图3 数据抽样流程

2.2 数据存储层

数据存储层主要对收集的各类数据进行存储管理。数据存储层可采用分布式管理系统,包括HDFS(hadoop distributed file system)和Hbase。HDFS 用来完成大数据的读取和写入。HDFS 采用扁平化网络结构,由主节点机器、备份节点以及若干个从节点组成。主节点机器用于存储节点的元数据,以及从节点的信息;备份节点用于备份主节点的数据,是防止主节点出现故障后数据库失效的措施;从节点用于存储文件内容和相关映射关系。

2.3 数据质量分析层

较大体量的数据可能会包含值错误、缺失或其他质量问题。因此,在数据分析前通常需要对数据进行全面质量分析。数据质量分析以确保数据的正确性和有效性为目标。常用的方法包括值分析、统计分析、频次与直方图分析等。

在数据正确性分析方面,通常考虑以下4 种可能的问题。

1)缺失值。缺失的数据值可能是空白或者是无意义的值,如null。

2)数据错误。通常为输入数据错误。

3)度量标准错误。由于同指标样本数据的不同度量方法而造成的错误。

4)编码不一致。通常为非标准度量单位或者单位不一致的问题。

在数据的有效性分析方面,主要关注数据的统计特性,用以表示数据包含的无法直接观测的统计信息。

2.4 数据预处理层

由于采集到的数据存在缺失、噪声和不一致等问题。因此,在质量分析之后,需要对数据进行预处理。数据预处理主要包括数据清洗、数据集成、数据归约和数据变换等,如图4 所示。数据“清洗”是通过补充缺失的值、光滑噪声数据、识别或删除离群点和解决不一致等方式完成数据“清洗”处理。数据集成是把不同来源、性质和格式的数据在数学或者逻辑上有机地集合,以便于数据挖掘应用。数据归约是通过维归约和数值归约将数据集进行简化表示。数据变换是将数据的表现形式进行转变的过程。数据预处理技术可以进一步提高数据的质量,从而提高数据挖掘的准确率和效率。

图4 数据预处理方法示意图

2.5 数据分析层

数据分析层主要运用数据挖掘的理论和方法,借助开发环境和相关框架,结合Apriori、FPGrowth、回归、贝叶斯网络、人工神经网络、支持向量机、灰色聚类、粗糙集等模型,完成关联性分析、聚类分类、状态预测和离群点分析等目标。

2.6 数据应用层

数据应用层主要根据数据分析层得到的结果,为装备储存和使用提供装备储存和使用数据共享库,测试指标相关性分析,问题归类管理,预测性状态监测,基于关键部件离群点数据的故障判别和智能辅助决策等应用。装备决策者要将数据挖掘结果与经验相结合,作出正确决策。

3 基于数据挖掘的装备储存和使用涉及的主要关键技术

3.1 数据可用性分析技术

劣质数据和噪声数据会影响数据总体质量。一个可用的大数据集需满足5 个性质:一致性、精确性、完整性、时效性和实体同一性。因此,需要开展数据的可用性研究。在数据收集、获取阶段对数据质量进行监控和预判,研究高质量数据获取方法和评估模型。在数据预处理阶段,研究对错误数据和噪声数据的检测判别方法以及数据修复技术和完善机制。对于一些无法修复或修复效果不理想的数据,采用各类数据分布近似计算理论进行数值模拟,以完成对数据的处理,使数据达到规定的可用性。

3.2 数据分布式储存技术

大体量的数据存储,单台服务器无法保证数据存储的有效性和效率,以及故障情况下数据库的应急使用能力。因此,大数据存储采用分布式存储策略,构建可扩展和具有并行操作能力的系统。采用分布式存储,在大量多类型数据、操作频繁、计算要求高的环境下,快速响应并完成相应操作,并保障数据储存安全可靠。

3.3 大规模数据计算技术

为了实现数据的快速处理,更好地发挥数据挖掘的优势,必须提高大规模数据的计算能力。为了突破单计算机系统的计算限制,可以将云计算应用到数据计算中,即通过网络按需获得资源或服务并进行数据处理和共享。目前云计算在工商业领域取得了一定的成效,但在军事领域的应用尚在探索阶段,如何将云计算应用到装备储存和使用,并保证云计算的安全可靠性是研究的重点之一。

3.4 先进数据分析技术与方法

目前数据挖掘有很多的算法模型。如何将现有的算法模型应用到装备储存和使用中,并保证方法与数据的兼容性也是一个研究重点。针对装备数据的特殊性,需要对相关算法模型进行优化和改进。由于部分装备数据需要依靠作战试验来获取,对于部分数据较少的参数指标和分析目标,可以考虑采用迁移学习的思路,降低数据集的体量要求,以获取和大数据集效果相同的分析结果。

3.5 数据及分析结果可视化技术

由于原始大数据集具有多维属性,且数据挖掘的结果可能较为复杂,不利于操作人员和决策者直接观察或决策运用。因此,需要建立一个合适的多维度数据之间的映射关系,并采用必要的可视化工具进行处理。对于数据处理过程及数据挖掘的结果,也可以通过图表或者标度关系图等方法进行转换。在对数据挖掘的结果进行可视化处理时,也需要研发应用有关的技术方法和工具手段。

3.6 智能辅助决策技术

为了使装备储存和使用的相关决策更加科学合理,考虑到数据挖掘的部分结果不可视化和难理解性,因此,需要开展智能辅助决策技术研发与应用。让系统对处理后的结果进行自我理解并根据装备管理、保障和作战等实际目标,进行智能辅助决策。决策者可以根据辅助决策系统给出的结论,结合作战经验和战场实际,进行综合决策。实现装备储存和使用数据的一体化、全流程、全寿命周期的管理与应用。

4 结论

为了解决装备在储存和使用中存在的不科学、不合理的判断、操作和运用决策,充分利用包含大量测试记录在内的装备大数据,本文构建了基于数据挖掘的装备储存和使用总体架构,并分析讨论其涉及的关键技术。初步建立了装备储存和使用数据的处理流程,但相关技术尚在不断发展与完善阶段,有待进一步开展相关理论研究与实践探索。

猜你喜欢

储存数据挖掘装备
哪些装备为太空之旅护航
这些精锐与装备驰援泸定
储存聊天记录用掉两个半三峡水电站电量
基于数据挖掘探讨慢性肾衰竭处方规律
基于数据挖掘技术的非均衡数据分类研究
港警新装备
软件工程领域中的异常数据挖掘算法
松鼠怎样储存食物
异质性储存服务器及其档案储存方法
基于R的医学大数据挖掘系统研究