APP下载

采用云计算的数据挖掘技术可视化教学与实验方案

2021-02-27邓红霞曹晓叶

实验室研究与探索 2021年1期
关键词:高维降维计算技术

史 虹, 邓红霞, 曹晓叶

(1.深圳职业技术学院人工智能学院,广东深圳518055;2.太原理工大学计算机科学与技术学院,太原030024;3.华南理工大学计算机科学与工程学院,广州510006)

0 引 言

数据挖掘技术能够从海量数据中发现隐含的内在有用信息,包括数据之间的关系、数据流的趋势、数据模式等信息,目前数据挖掘已经成为电子信息领域一个极为重要的技术[1]。数据挖掘技术由若干个子技术组成,包括:关联规则挖掘[2]、频繁项集挖掘[3]、模式挖掘[3]、数据聚类等,这些子技术与数学的关系十分密切并且较为抽象,使得初学者难以理解。

数据挖掘是高校计算机专业与信息专业的基础课程,数据挖掘技术的抽象使得学生难以理解,这为教学带来了极大的困难。数据挖掘教学与实验方案[4]应当满足以下几点要求:① 支持不同的数据挖掘子技术;②能够快速、准确地仿真数据挖掘的工作流程;③采用云计算技术提高数据分析与存储的效率;④提供数据挖掘的可视化界面。目前主流的数据挖掘商业软件主要有Orange4WS(Orange for Web Services)[5]、KNIME (Konstanz Information Miner) analytics platform[6]、RapidMiner Studio等,这些商业软件价格较为昂贵,且不能同时满足上述4 点要求,无法直接用于高校的数据挖掘教学与实验。

为提高数据挖掘课程的可理解性,设计针对数据挖掘技术的教学与实验方案。该方案收集了传感器、互联网、社交媒体等不同类型的数据集,采用云计算技术对数据集进行分析处理,提高数据处理的效率,由此也提高了教学的效率。此外,设计了PC 端的图形界面,能够以图像形式描述数据分类、数据聚类以及数据降维的结果,提高数据挖掘技术的可理解性。

1 基于云计算的数据挖掘处理

为满足上述数据挖掘教学与实验的4 点要求,本文设计了数据挖掘仿真实验(Data Mining Simulation Experiment,DMSE)系统,该系统不仅满足上述4 点要求,同时还考虑了用户权限管理、可移植性与可扩展性。图1 所示为DMSE 系统的总体结构,前端部分的图形用户界面(Graphical User Interface,GUI)负责与用户交互,后端部分的计算服务模块负责处理用户的请求。

图1 DMSE系统总体结构

1.1 DMSE用户权限管理

设计了两种用户权限:管理者与普通用户。普通用户无须知道DMSE的内部信息,仅需要操作软件完成数据挖掘的仿真与实验。管理者应当熟悉DMSE的结构,可以修改DMSE的实验数据集,并且集成新的数据挖掘子技术。

1.2 DMSE内部结构

DMSE主要由GUI 与计算服务模块组成,GUI 与计算服务模块通过简单对象访问协议[7](Simple Object Accrss Protocol,SOAP)消息通信。如果GUI向计算服务模块发送一个SOAP 消息,该消息中包含具体的数据挖掘算法,每个SOAP 消息触发计算服务模块运行相应的数据挖掘算法。为提高系统的处理速度,采用云计算实现计算服务模块,云计算调度器为数据挖掘计算任务分配处理器资源与内存资源。

通过将GUI与计算服务模块分离,能够有效地提高DMSE的可移植性,独立地对计算服务模块进行升级,使用最新的开源云计算技术。GUI 负责用户与DMSE之间的交互,为终端用户提供数据挖掘的方案,并为用户提供友好的界面,用户可观察数据挖掘的处理过程。DMSE采用了云计算技术与计算资源分离技术,使得DMSE具有4 个优点:① 使用云存储技术降低了数据管理的难度;②采用云计算技术提高了计算资源的管理效率;③能够简单地引入新的数据挖掘算法;④能够仿真数据挖掘算法的工作流程。

1.3 DMSE用户的使用方法

DMSE用户利用数据挖掘算法对数据进行分析的过程主要分为以下步骤:首先,DMSE用户初始化并且管理数据挖掘实验,然后,建模与模拟数据分析程序,最终,DMSE 将实验结果与数据分析结果保存于云存储中,使得DMSE用户能够随时访问实验的结果。

数据挖掘实验的初始化与管理工作主要通过建模科学工作流程实现。DMSE 用户上传一个数据文件,选择数据预处理、计算统计特征、数据降维、数据聚类与分类等子技术,观察DMSE的仿真结果。

数据挖掘技术需要处理来自不同设备与社交媒体的数据集,此类数据集一般为高维度数据,这为数据挖掘处理带来了极大的困难。降维处理的目标是从高维数据集提取其低维度结构,将高维空间的数据映射到低维度空间。降维处理是数据挖掘领域一个极为重要的处理步骤,对于大数据集极为重要,大数据集在映射到低维空间之后,可通过其他的数据挖掘算法对低维数据集进行进一步的分析。数据集的一部分特征属于冗余特征,通过降维技术可排除此类冗余特征,提高数据挖掘的效率与准确率。

高维空间无法以图像的形式表示,DMSE 系统需要为用户提供数据集的可视化结构,因此降维处理是DMSE重要的一部分。本文的DMSE集成了多个经典的降维算法:

(1)主成分分析技术(Principal Component Analysis,PCA)[8]。PCA 是一个广泛使用的降维技术。

(2)多维尺度变换(multidimensional scaling,MDS)[9]。MDS广泛用于降维处理与高维数据的可视化处理,该技术主要利用高维数据点之间的距离信息将高维数据转化为低维数据。

数控程序采点功能,可以简化程序局部更改过程,对于尺寸变化需要更改程序的情况,使用采点功能直接在工件二维图上采集坐标点,并将其自动转化为机床程序坐标语句,后续添加准备功能字等即可变成程序段[9],避免在CAD/CAM软件上重新画图,重新出程序的复杂过程。

(3)相对MDS[10]。MDS 技术保留了高维数据的结构,但并不提供新数据点的映射。相对MDS则提供了新数据点的映射机制。

(4)结合自组织映射的多维尺度变换(Self Organizing Mapsmultidimensional scaling, SOMMDS)[11]。SOM是一种神经网络结构,其结果是一个神经元集合,该集合表征了高维数据点,MDS 将该高维数据点映射至二维平面。结合SOM与MDS 可提高对大数据的降维效率。

DMSE也集成了数据预处理、分类和聚类等子技术的经典算法,例如:特征选择、数据划分、孤立点消除、数据统计特征计算、随机决策预测等。为输出数据挖掘的图形化结果,设计了数据点的二维坐标图。

2 数据挖掘工作流程的建模步骤

DMSE支持建模数据挖掘过程,用户可利用DMSE深入观察数据集的内部关系。图2 所示为DMSE对数据集进行数据挖掘的过程,本文将人工合成数据集与真实数据集混合作为实验的数据集。

第1 个数据挖掘实验使用公开的Breast Cancer Wisconsin数据集[12],该数据集包括699 个样本,共有9 个特征,其中每个样本均有一个类标签,共有benign与malignant两个类。通过数据挖掘算法获得该数据集隐含的信息,DMSE则混合了各个数据挖掘子技术来完成实验。数据挖掘实验过程分为以下步骤:

图2 DMSE对数据集进行数据挖掘流程图

步骤1数据文件上传。为了使用DMSE 分析数据,数据必须为兼容的格式,例如:tab、txt、csv、xlsx、arff。

步骤3数据分类。DMSE 集成了随机决策森林(Random Decision Forest,RDF)与多层感知机(Multi-Layer Perceptron,MLP)两种分类算法。

步骤4数据降维。DMSE 集成了基于降维技术的可视化算法(Scaling by Majorizing a Complicated Function,SMACOF)[13]。

步骤5输出图形化结果。以二维散点图作为数据挖掘的输出形式。

3 基于DMSE仿真数据挖掘的效果

3.1 DMSE的数据降维仿真实验

DMSE通过建立一个科学工作流程即可简单地实现数据挖掘模型,图3 所示为DMSE的操作界面,通过鼠标拖动图标即可建立数据挖掘的工作流程,DMSE界面即可输出数据挖掘结果的二维散点图。

图3 DMSE的操作界面

DMSE系统的RDF与MLP数据分类结果见表1,可见DMSE的数据分类性能较高。

表1 不同数据挖掘软件的分类器性能

如图4 所示为降维处理后的二维散列图,压缩最小化配置(stress minimization Configuration,SMACOF)算法[13]将数据集降为二维的空间。图中的红色数据点对应肿瘤数据,红色点相对集中,其他的绿色点对应恶性肿瘤数据,绿色点则极为分散。从图4(a)可以观察数据集的隐含关系,也提高了数据集的可理解性。每个breast cancer数据样本表示为9 个特征,并非所有的特征均为关键特征,图4(b)所示为一部分特征的散列图结果。将图4(a)、(b)的散列图进行比较,可看出特征选择处理对输出的散列图并没有明显的影响,却导致数据的分类准确率降低,因此可总结出该数据集的全部特征均为关键特征。

图4 降维处理后的二维散列图

微软机器学习库(Microsoft Azure Machine Learning Studio,Microsoft Azure ML)[14]也是一个能够输出数据挖掘散列图的商业软件,该软件也是基于云计算实现。将DMSE与Microsoft Azure ML比较,如图5(a)所示为Azure ML 软件对于breast cancer 数据集的工作流程,图5(b)为使用PCA 进行降维处理的结果。将图4 与图5(b)比较,可看出DMSE输出的图像为彩色图像,而Azure ML软件的输出图像为黑白色图像,因此DMSE的散列图像具有更好的表现效果。此外DMSE集成的降维算法也多于Azure ML软件。

图5 Microsoft Azure ML软件[16]输出的散列图

3.2 DMSE云计算模块的实验

数据挖掘需要消耗大量的计算资源与存储资源,处理大规模数据集或者高维数据集的效率较低,不利于课程教学。DMSE采用了云计算方案实现分布式计算与分布式存储,采用一个高维大数据集“ellipsoidal数据集”(http:/ /personalpages.manchester.ac.uk/mbs/julia.handl/generators.html)进行仿真,该数据集包含10 个重叠的椭圆形簇,共有3 140 个50 维的数据点,如图6 所示为高维数据集的结构图,DMSE 采用SMACOF对该数据集进行处理。将DMSE与不采用云计算的DMSE进行比较,基于云计算的DMSE 简称为“云DMSE”,未采用云计算的DMSE 简称为“简版DMSE”。

图6 ellipsoidal数据集的结构图

如图7 所示为“云DMSE”与“简版DMSE”分别对ellipsoidal数据集的分析结果。由图7 可见,云DMSE的分类结果优于简版DMSE,其原因在于SMACOF技术的性能依赖低维数据点的初始化值,云DMSE 通过分布式计算获得了较好的初始化值,简版DMSE 则未能获得较好的初始化值。简版DMSE的运行时间约为21.3 s,而云DMSE的运行时间约为9.7 s。采用云计算技术不仅提高了数据挖掘的效果,也提高了数据挖掘的效率。

图7 “云DMSE”与“简版DMSE”分别对ellipsoidal数据集的分析结果

4 结 语

为提高数据挖掘课程的可理解性,设计了针对数据挖掘技术的实验方案。本方案包含了数据的分类、聚类、降维以及关联规则等数据挖掘的子技术。将传感器、互联网、社交媒体等不同类型的数据集作为实验数据集,采用云计算技术提高计算与存储的效率,提高教学与实验的效率。设计的图形交互界面,能够以图形形式与表格形式输出数据的分类、聚类、降维以及关联规则的结果,提高数据挖掘技术的可理解性。仿真效果证明,采用云计算技术不仅提高了数据挖掘的可视化效果,也提高了数据挖掘的效率。

猜你喜欢

高维降维计算技术
混动成为降维打击的实力 东风风神皓极
双冗余网络高维离散数据特征检测方法研究
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
基于5G和边缘计算技术的智能仓储数字化管理平台
基于深度学习的高维稀疏数据组合推荐算法
降维打击
云计算技术发展分析及其应用探讨
高维洲作品欣赏
云计算技术在现代化办公系统中的应用
基于矩阵模型的高维聚类边界模式发现