APP下载

基于云计算平台的物联网数据挖掘探析

2019-10-21张艳慧

现代信息科技 2019年5期
关键词:数据挖掘云计算物联网

摘  要:在现代信息技术中物联网是非常重要的一部分,物联网的出现推动了人类社会的发展进程。随着物联网的大规模应用,物联网数据挖掘技术的优势也逐渐凸显,但是任何事物的发展过程都是曲折的,物联网数据挖掘也面临着更为严峻的挑战,对云平台下物联网数据挖掘的探究,有助于其技术优化与升级。

关键词:云计算;物联网;数据挖掘;Hadoop

中图分类号:TP391.45;TN929.5      文献标识码:A 文章编号:2096-4706(2019)05-0174-03

Abstract:The internet of things is a very important part of modern information technology,and the emergence of the internet of things has promoted the development of human society. With the large-scale application of the internet of things,the advantages of data mining technology of the internet of things are gradually highlighted,but the development process of anything is tortuous,and data mining of the internet of things is also facing more severe challenges. Exploring data mining of the internet of things under the cloud platform will help to optimize and upgrade its technology.

Keywords:cloud computing;internet of things;data mining;Hadoop

0  引  言

对物联网技术的研究是信息化时代不断发展的结果,物联网技术在人类生产与生活中的影响逐渐增大,基于云计算平台的物联网数据挖掘也成为了研究热点。云计算的出现,为物联网数据挖掘的发展提供了广阔的空间,也促进了社会各个生产领域的信息化建设,其强大的IT技术支撑能力与数据挖掘分析能力,为人们提供了巨大便利。

1  物联网与云计算概述

1.1  什么是物联网

物联网属于新生代网络,用万亿节点表示对象,在不同传感器设备、网络服务器、超级计算机集群中进行数据的传递、汇总、应用。此新型科技,既包含计算机技术、通信技术,又展示了网络的发展方向。物联网中可通过对物理对象的利用,形成无缝信息网络,促进业务流程的有序运行。利用网络服务可加强“智能对象”之间的联系,在安全保障下,解决用户不同需求。

物联网的整体特征可概括为三大点:

(1)充分利用现有技术感知信息,利用电子标签了解基本信息;

(2)为信息的传递提供可靠性,如:同时包括有线网络信息输出与无限网络信息传输,比较常见的是利用传感器网络、其他通信等获取、传递,并确保信息传递的可靠性;

(3)在云计算的模式下进行数据智能处理,通过模糊识别等技术对海量异构数据进行高效处理,提升信息整合的有效性,保证数据运用效率,实现智能化控制物体。

1.2  什么是云计算

1.2.1  云计算概念

互联网计算的不断应用与发展,逐渐形成了一种新型的计算公式,即为云计算。云计算具有强大的功能,结合互联网自治等性能,加强了用户管理能力,并且可以按照制定需要进行计算。

云计算技术以分布式作为计算平台,在大量数据中挖掘数据背后蕴藏的价值,大大提升数据挖掘的有效性。采用分布式数据处理方法,可从分布式存储、并行计算两方面双管齐下,有效的解决数据存储、计算、容错等内容要求,进而保证数据具有安全性、高性能等特点。在此基础上,由谷歌提出的分布式文件系统理论并在行业中逐渐发展起来,此系统称之为GFS,可深层次解决数据搜索、存储、分析等问题要求。而行业中,由Google研发的开源系统逐渐发展成为了Hadoop分布式文件系统(HDFS)、Kosmos文件系统(KFS)等,组建成为丰富的分布式数据存储系统体系。

通过分布式并行计算系统框架完成挖掘数据背后价值的任务,现阶段常见的分布式并行计算框架可实现封装技术细节,进而保证用户在进行数据提取时,仅需关注任务的逻辑要求,不需考虑过多技术细节,进而提升了数据的研发效率,有效控制并降低了系统维护所需成本。常见的分布式并行计算框架包括MapReduce并行計算框架、Pregel迭代处理计算框架等,行业市场流行的开源云计算平台主要包括:Hadoop平台、Enomalism云计算平台、abiCloud等。

1.2.2  Hadoop概述

Apache软件基金会开发研制出的Hadoop,主要是由分布式系统构成的基础性框架,现阶段应用为其他运算法的研发平台,如:通过有效的技术研发,为云计算提供了良好支持,用户通过此软件提高了应用效率,同时该软件的应用也大大保证了分布式程序的开发,实现了应用价值。Hadoop平台以集群方式,利用开源优势向使用者提供强大的信息存储、数据运算功能。由此可见,分布式Hadoop可为IT产业提供Linux系统,并促进其发展。HDFS和MapReduce是Hadoop系统的应用核心,在良好的计算与储存环境下,能够提高数据应用能力。

HDFS容错性高、伸缩性强,可满足用户将Hadoop部署在不同硬件系统中的要求,进而形成分布式文件系統,不断提高文件的质量。在MapReduce编程模型下,一些系统底层的用户实现了应用程序的不断研究与开发,通过进一步实践,相关的数据信息能够同MapReduce实现整合,从而提升数据分析的高效性、数据处理的准确性。Hadoop进一步搭建了分布式计算云平台,提高了技术应用效率,可以为用户挖掘计算机资源提供方便,为处理海量数据提供集群计算功能、存储功能。

2  数据挖掘技术研究

2.1  什么是数据挖掘技术

相对来说,数据挖掘存在一定的局限性,其发展、形成时间较短,自上个世纪90年代发展以来,逐渐扩展了应用范围,其不仅有利于信息处理,同时对生产生活等各个方面都有重要意义。现阶段,挖掘数据的相关技术不仅属于科学研究领域,同时属于多元化的技术交叉领域,因此在各行各业中都有充分利用数据挖掘技术,不断对此技术进行完善与发展的情况。综合实际情况,部分学者总结,现代化的信息挖掘、数据挖掘含义包括:

(1)在真实的基础上不断丰富数据,实现大量的海量的数据资源库;

(2)利用对数据的挖掘、汇聚信息、分析价值,为更多行业提供服务,满足不同行业的数据需求,为生活提供便利;

(3)更容易被人们理解、接受、运用,可为决策提供依据,可通过对数据的分析判断,提升决策的科学准确性。

2.2  数据挖掘技术的特征

在物联网挖掘数据价值的过程中,主要技术手段呈现出规模化、分布化的特点,可有效的利用有限的资源节点,保障数据运用的安全性。因此,物联网依据数据的分布性将数据存储于不同位置中,每处数据具有属于自己的独特归类。同时物联网数据大量且冗杂,往往需要其自身带有大量传感器节点,进而提升处理重要节点信息的时效性。

2.3  物联网数据挖掘面临的挑战

物联网有一定的自身运行特点,需要结合其运行模式、运营规律等应用优势,在任何新技术发展的过程中都存在一定的挑战,物联网也不例外,其面对的主要挑战包括:

(1)物联网缺乏有序的数据存储章法,杂乱无章,主要是以中央管理为主,缺乏对分布式数据的探知能力;

(2)数据存储规模较大,及时处理信息存在节点,以中央处理模式为核心,需要高质量的、高性能的计算机硬件设备,现有基础设备不完善,难以保证数据信息挖掘的有效性;

(3)随着不断增加的数据利用率,数据节点需求增加,可满足需求的节点日渐减少,需要与供给之间的矛盾增加,需要引入新技术弥补完善此类问题,需要采用新技术不断解决数据使用的实际问题;

(4)存在较多的不稳定影响因素,数据安全性、网络稳定性、信息保密性等都影响物联网的运行,需要在发展过程中逐一解决。

由此可见,挖掘物联网的实际价值,发挥物联网的数据应用效益,需要建立良好完善的数据应用平台,通过提供安全可靠的运行环境,发挥物联网的使用价值。

3  基于云计算的数据挖掘关键技术

3.1  云计算数据挖掘技术

在时代的发展过程中,数据的价值不断凸显,挖掘数据的价值并将其充分利用,成为获取行业竞争优势的重要途径,在此基础上,云技术迅速崛起,成为全新的数据挖掘方式,为获取数据资源的价值提供了更便捷的途径。利用云计算模式可通过搜集、存储、运算数据等,挖掘数据背后的深层价值。

3.1.1  数据汇集调度技术

利用云计算平台可实现对不同类型数据的汇聚调度,此技术可称之为数据汇聚调度技术,利用此技术实现不同格式间数据的交流与连接,实现同步连接多种数据。利用此数据技术以解决不同数据的规约问题为主要任务,在设计问题解决方案时需要保证可支持不同系统数据生成格式,包括联机事务处理系统形式数据、联机分析处理系统形式数据、各种日志数据、爬虫数据等,进而实现充分有效的分析挖掘数据。

3.1.2  服务调度和服务管理技术

为了保证云计算平台可为不同业务系统服务,平台需要具备服务调度、管理功能。服务调度功能主要指,在分析服务等级、资源匹配等基础上实现对优先级服务的调度,有效解决服务间的隔离、互斥问题等,进而保证云服务具有一定的安全运行空间。服务管理功能主要是指通过将服务注册、服务暴露等功能统一化,大大提升本地服务能力的可暴露性,保证充分挖掘第三方接入数据的价值,进而促进平台挖掘数据的服务能力。

3.1.3  挖掘算法并行化技术

在云计算平台中以挖掘算法并行化为有效的基础能力技术,其包括选择可行性算法、并行性算法、并行策略等技术。主要的数据挖掘算法包括决策树算法、关联规则算法、K-平均值算法等,云计算平台通过并行化算法实现对数据的充分挖掘与利用。

3.2  云计算物联网数据挖掘应用

运用云计算为服务平台的主要运行网络平台包括物联网数据平台,此平台以热点Hadoop为基础,通过有效的平台搭建实现其应用。从实际的运行模块看,要包括物联网感知层,要有实际的传输层、数据层,同时也要有完善的数据挖掘服务层。其关键技术如下。

3.2.1  物联网感知层

物联网感知层大量的采集节点不止在目标区域内,利用不同节点,通过使用摄像头、数据传感器等设备有效的完成物联网所需数据的采集工作,再与互联网感知层进行通信,结合无线传感网络促使提高工作效率。同时要进行网络汇聚节点数据,汇总数据后进行存储,进而将相关信息向云平台数据库传送。

3.2.2  传输层

传输层要通过不同形式的数据感知网络形态,向数据网络传输可靠数据,进而保证数据的高速性、无缝性、灵活性,保证云计算数据中心高质量的感知不同数据,强化不同系统中数据连接的全面性、互通性。同时利用此层级系统,可实现对数据传输设备间的监测,进而强化网络监测设备间数据传输的高速性。

3.2.3  数据层

在物聯网运行平台中,数据层是挖掘信息的重要服务平台,物联网数据具有一定的海量性、异构性,因此在数据层需要根据数据的上述特点运行,保证数据存储的安全性、物联网平台数据挖掘的可行性,提升物联网的运行性能。其中,数据层要有相关的储存与转化模块,要能够实现科学化的转化,以提高数据应用效率。在进行转化过程中,要重视提高数据的采集水平,从而结合实际研究,做好云计算物联网数据挖掘应用工作。通过结合数据转换器,重视对数据进行多样化的转化。在各个NameNode节点以分布式采集PML文件型数据。对此,通过PML描述自然物体,以XML语言为基础,利用同样的核心思想,通过PML可提供详细物品研发信息,实现交换物品信息。

例如:通过物联网节点,结合PML相关技术进行建模,其能够实现数据传输与储存能力,为了提高建模质量,要包括位置数据,也要涵盖物体属性,从而才能通过分析物体信息相关历史元素,实现对于物品信息的科学化分析。

3.2.4  数据挖掘服务层

云计算平台通过一系列的模块组成数据挖掘服务层。其中,根据不同类型数据知识进行挖掘,以数据挖掘引擎模块进行数据特征的区分、演化分析,研究数据的关联性、聚类识别、确定局外者、进行偏差、类似性分析。结合数据挖掘方式,充分利用引擎模块中的算法集,实现挖掘价值。在Hadoop平台中通过优化传统数据算法,实现并行化算法处理。

在进行用户模块系统运行时,可将平台更好的与使用人员相联系,将数据以可视化的方式呈现给用户,用户以操作界面的形式挖掘数据,有效的对知识进行收集,并且能够深入理解知识。为了提高服务质量,要不断优化与增强用户模块,保证其平台的可移植性,积极确保用户服务底层模块服务的开放性,丰富物联网的应用价值。

3.3  构建云计算物联网挖掘平台

本次选择Hadoop搭建云计算平台,并以此进行模拟实验。

(1)实验过程要准备PC机器,并且要进行优化配置,以Win 10系统为主,并且安装虚拟机,其虚拟系统可以为Linux操作系统,随后对其进行科学布置,此次实验安装3个虚拟机来研究;

(2)安装与Linux版本相适应的Eclipse 7.5开发环境,同时在PC机上安装SSH服务,在实验开始之后用于实验数据传递;

(3)在3台虚拟机中也要安装SSH服务,从而为Hadoop平台运用。在完成配置安装之后,使用关联规则算法,依据C++代码程序将数据转换成标准的PML文件,文件大小为1G,再利用HDFS将文件传入Hadoop平台,采用分布式存储。多次模拟实验之后不难发现,Hadoop平台拓展性能很强,为此要积极去探索,从而才能满足数据挖掘工作的开展要求。

4  结  论

社会经济与信息技术的高速发展,催生了物联网技术。在物联网技术日渐完善的背景下,数据数量也不断海量增长,与之相关的数据挖掘技术也成为了研究热点。云计算基础上的数据挖掘技术优势显著,对其进行进一步挖掘和讨论是优化和完善物联网技术的关键,是信息化社会发展之必然。

参考文献:

[1] 王友羲.以云计算平台为基础的物联网数据挖掘探讨 [J].中国新通信,2018,20(2):57.

[2] 徐少甫,姚湘.云计算平台下物联网的数据挖掘 [J].电子技术与软件工程,2017(24):153-154.

[3] 任伟.基于云计算的物联网数据挖掘模型研究 [J].软件,2017,38(12):229-232.

[4] 马亮亮.浅谈云计算下物联网的数据挖掘模式分析 [J].电子测试,2017(4):90+92.

作者简介:张艳慧(1997.07-),女,汉族,辽宁朝阳人,本科,研究方向:计算机科学与技术。

猜你喜欢

数据挖掘云计算物联网
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于高职院校物联网技术应用人才培养的思考分析
基于云计算的移动学习平台的设计
实验云:理论教学与实验教学深度融合的助推器
云计算中的存储虚拟化技术应用
基于R的医学大数据挖掘系统研究
中国或成“物联网”领军者
一本面向中高级读者的数据挖掘好书