基于模糊聚类算法的工业智能应用平台信息自动分类系统设计

2022-07-23侍守创

电子设计工程 2022年14期

徐东，王雷，侍守创

（1.工业互联网创新中心（上海）有限公司，上海 200120；2.江苏杰瑞信息科技有限公司，江苏连云港 222000）

越来越多的发达国家开始采用工业智能应用平台灵活部署工业布局[1]，为企业提供跨区域的工业信息化服务。在工业智能应用平台中，通常采用基于内容的文本自动分类方法，不仅可以节省大量的时间和人力资源，提高信息分类的效率和准确性，而且克服了手工整理效果不佳的问题。

以往分类系统都是采用已有的指数经验数据。例如文献[2]建立了知识库，实现了基于关键词的自动分词和分类。该方法的缺点是不能处理大量无序的文档，导致分类结果不准确；文献[3]提出了一种基于云计算的自动分类系统，并在该系统的基础上，引入云计算平台和分布式计算架构，对大型非结构化数据进行分类。但该方法只能处理部分结构化和非结构化的平台信息，不能处理大量系统无序文档，造成分类结果不准确。

针对上述问题，提出了一个基于模糊聚类算法的工业智能应用平台信息自动分类系统，将该系统与模糊聚类算法相结合，对工业智能应用平台的信息进行精确挖掘，有效地提高了分类性能。

1 系统硬件结构设计

基于C/S 体系结构，结合工业智能应用平台信息分类系统的需求[4]，以B/S 体系结构管理用户信息[5]，进行了系统硬件结构设计，如图1 所示。

图1 系统硬件结构

如图1 所示，该系统由3 层组成，分别是系统表示层、业务逻辑层和系统数据层。可以使系统运行速度更快，数据处理更安全，方便了网络资料查询和公告的发布。

1.1 系统表示层

1.1.1 图形用户界面

便携式媒体播放器以TMS320DM270 作为主控芯片，这是一种具有多种外部设置的可编程芯片，它有利于满足市场的动态变化要求，并使系统的其他模块受其控制[6-7]。采用TVP5150A 核心芯片作为视频输入模块，能够对视频信号进行转换，以获取数字信号。

系统添加了触摸屏功能，其中，必须使用触摸屏控制器和音频编解码器，同时，采用DM270 和McBSP构建音频输入输出模块，使得触摸屏控制器的使用更加简单方便[8-10]。此外，为了减小芯片尺寸和成本，触摸屏控制器可以集成音频编码[11]。根据交流充电或USB 充电需求，选择电源模块。

1.1.2 浏览器

浏览器是用来访问和浏览互联网的客户端[12]。浏览器引擎使用一个接口来查询和操作渲染引擎。渲染引擎与后台使用同一个界面来显示请求的内容。使用网络调用接口，执行HTTP 请求等内容[13]。

1.2 业务逻辑层

业务逻辑层是系统的核心处理层，包括数据采集逻辑、预处理逻辑、文档管理逻辑、信息发布管理逻辑、文件管理逻辑等[14]。

文中设计了一个以PC104 为嵌入式信息处理单元的嵌入式智能数据采集系统，采用开放的互连结构和CAN总线接口，提高系统可靠性，避免外界干扰[15]。

嵌入式数据采集器主要是由信息处理模块、远程嵌入模块、数据采集模块、显示模块、外围控制与维护接口模块组成，并配置双CAN 总线接口的嵌入式信息处理器和远程数据采集装置。

由图2 可知，该采集器主要单元为嵌入式信息处理单元，该单元的主要任务是对信息进行采集和管理，将采集的信息定期发送给数据存储和显示模块，分析用户指令，并实时从维护界面入手，进行采集器维护工作，对系统进行日常维护[16]。高速网络接口用于实现与其他网络的数据交换。

图2 嵌入式数据采集器

1.3 系统数据层

在系统数据层，使用一种数据分类器进行数据中心的信息分类，使其与数据库管理系统相结合。对属性集进行一系列决策，包括提供属性集和分类数据，分类器结构如图3 所示。

图3 分类器结构

2 系统软件设计

2.1 模糊聚类算法应用原理

2.1.1 初始聚类中心选取

通过对象间的距离公式，确定数据集中最远的点，将其作为初始聚类中心，设对象间距离公式为：

式（1）中，Pk和Pi表示两个对象。

2.1.2 类合并

当两个对象之间距离最短时，则说明这两个对象是同一类别的。在聚类过程中，两个类别间距离最小时，可以进行类合并处理。为了加快聚类速度，设定阈值为：

式（2）中，λ表示比例系数；dmin、dmax分别表示类别间最小和最大距离。阈值取值不能过小，否则合并速度较慢；取值也不能过大，否则所有类别将全部被归为一类。

2.1.3 模糊聚类算法流程

将每个样本都作为初始聚类中心，计算阈值，同时，将类间小于阈值的两个类别进行合并处理，由此获取新的类别点，计算隶属度函数，更新聚类中心。根据评价函数，计算新的分类评估结果为：

如果E(n-1)＜Y(n-2)，则输出聚类结果；否则，重新计算隶属度函数，直到满足上述条件，即可完成模糊聚类。

2.2 基于模糊聚类算法的信息自动分类

模糊聚类原理是将工业智能应用平台中的所有信息进行自动分类，设某个工业智能应用平台中包含的类别nj，其中nj在该平台训练样本集Wrj中的样本信息为mj，按照下列步骤将所属类别nj划分到子类T1或T2中。

分类步骤如下：

step1：根据模糊聚类原理对样本训练集Wrt进行模糊聚类，得到类别信息xji及两个子类隶属度μj1i和μj2i，将满足隶属度之差大于0、小于0、等于0 的样本分别存储到集合Wj1、Wj2、Wj3中，并分别设置3 个集合的样本数，依次为Zj1、Zj2、Zj3；

step2：对于种类nj中，如果存在：

式（4）中，α表示设定的阈值，该值越大，说明交叠结构类别数量就越多。如果满足式（4），则将种类nj划分到子类T1或T2中；

step3：对于种类nj中，如果存在：

如果满足式（5），则将集合Zj1划分到子类T1中，Zj2划分到子类T2中，Zj3划分到子类T1或T2中；

从初始训练节点开始，生成各个节点模糊聚类后，再从每个模糊类别中直接选择该模糊聚类中隶属度小于1 的样本。

从上述训练结果可看出，使用模糊聚类算法减少了训练样本的数量，避免了系统化无序信息对分类造成的不利影响，进而有效提高系统精度。

3 实验

为了验证基于模糊聚类算法的工业智能应用平台信息自动分类系统设计的合理性，进行实验验证分析。

3.1 数据描述

系统测试数据集主要包括工厂远程运维管理平台、订单数字制造管控平台、智能工业云服务平台、项目管理协同工作云平台4 个类别，每个类别中均有600 条信息，共包含2 400 条信息。

3.2 系统运行平台

系统运行平台硬件配置了5 台主机，该主机的内存为2.5 GB。在计算机周围部署Hadoop，并将这5 台主机连接起来，形成分布式集群。

在Eclipse中，选择Maven 作为管理工具，引用管理工具即可进行相关实验。

3.3 实验指标

分类结果评价可以从侧面反映分类系统性能的优良，主要有两个评价指标，分别是召回率recall 和准确率precision。其中，召回率指的是分类系统信息分类的数量与属于同一类工业智能应用平台信息总数之比的正确评价结果；准确率指的是分类系统工业智能应用平台信息中，真正属于该平台信息所占比例的正确评价结果。召回率和准确率的计算公式为：

由式（6）、（7）可知，S表示分类标准中属于同一类信息同时也被分类系统分到同一类中的信息数；Q表示分类标准中不属于同一类信息，却被分类系统分到同一类中的信息数；R表示原本应当分类到同一类信息却被分到其他类别中的信息数。

3.4 实验结果对比分析

分别使用基于知识库自动分类系统、云计算的自动分类系统和基于模糊聚类算法自动分类系统对比分析召回率和准确率，对比结果如图4 所示。

由图4可知，使用基于知识库自动分类系统对4个平台信息分类的过程中，以关键词作为特征粒度后，该系统的召回率得到提高，最高召回率为0.7，但在处理项目管理协同工作云平台时，系统化无序信息影响着系统的分类精度，最低精度为0.6；使用基于云计算的自动分类系统对4 个平台信息分类的过程中，引入了云计算平台和分布式计算架构，有效提高了系统召回率，最高召回率为0.65。但在处理项目管理协同工作云平台时，同样受到系统化无序信息影响，导致系统分类精度较低，最低为0.59；而基于模糊聚类算法的自动分类系统，结合了模糊聚类算法，能够精准挖掘出4 个平台信息，不会受到系统化无序信息影响，最高召回率为0.91、最高准确率为0.89。