APP下载

基于HADOOP的数据挖掘

2019-12-02周昊毛明慧刘钒

电子技术与软件工程 2019年22期
关键词:数据源数据挖掘分析

文/周昊 毛明慧 刘钒

1 数据挖掘概述与应用现状

我国正处于大数据时代背景下,在这一时代背景下,人们一切的生产经营活动都可以通过数据来显示,而数据挖掘系统通常都采用的是信息计算系统,通过对海量的数据进行计算、分析与总结。数据挖掘系统不仅用于公司企业当中,同时还可以在高校内应用,用以监测学生的能源消耗情况。目前,数据挖掘技术在各项网络工程中,被众多网络企业进行数据的计算与管理,并且利用HADOOP 技术,并且搭建了自己的技术分析平台,对数据挖掘起到了一定的促进作用。并且随着现代信息数据处理技术的不断进步与完善,许多公司企业都已经开始利用数据挖掘技术进行数据的大量存储,并利用HADOOP 技术获得了大量的数据信息,成为目前受欢迎的研究热点与领域。在数据挖掘领域中,HADOOP 技术已经成为了主要的计算方法,得出了一种基于Hadoop 的关联规则挖掘算法,这种计算方法虽然高效,但是中间手动编码的过程太过繁琐,虽然方法高效,但是耗费的时间与精力过长,这是今后将要研究的重点,也是未来要克服的技术难题。

2 HADOOP概述

Hadoop 是一个由Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。HADOOP 技术是数据挖掘技术中采用的重要方法,它是一种分布式系统,应用在公司企业内部的数据网络系统中,它可以根据该企业庞大的、大量的数据进行层层分布,并能够进行精确的计算与存储。Hadoop 的框架最核心的设计就是:HDFS 和MapReduce。HDFS 为海量的数据提供了存储,而MapReduce 则为海量的数据提供了计算。利用Hadoop 技术系统进行数据的处理,不仅可靠、高效、可伸缩,而且成本低廉,任何人都可以使用,它是一个能够客户轻松利用与计算的数据平台系统。而且最重要的是利用Hadoop 技术系统在直接计算出结果之后就可以自动帮助客户存储数据,非常方便高效。

3 基于HADOOP的数据挖掘系统构成与设计

3.1 构成要素

一个完整的数据挖掘系统必须具有三方面的基本条件:

(1)数据源,数据挖掘系统只对特定的数据源进行分析与计算,用户可以给系统输入制定的计算命令,而系统根据用户的需求对特定的数据源进行计算、分析,而且是必须在一个数据系统中的数据才可以,Hadoop 技术系统是针对数据库中的数据进行大量的计算与分析,进行统一的规划与处理。

(2)数据源服务器,用户提出的数据计算分析请求发送到数据源服务器,服务器负责接收、计算与处理,运送过程中的数据信息也被保护。因此,对于整个数据挖掘系统来说,整个数据计算设备都是互通的,在此运送过程中数据信息能够被好好的保护。

(3)预处理模块,模块被输入固定的计算程序后,能够根据程序要求的编辑管理进行数据的计算,进行计算与分析,能够得出预定的结果。

(4)知识库是应用数据挖掘系统后进行数据存储的,这是数据挖掘系统的一大优点,它能够根据得出的数据结果进行自动存储与数据归类,但是还是由操作者进行手动操作来把数据进行确定和设计。

(5)数据挖掘引擎,数据挖掘系统中有多种数据计算的方式方法,而具体采用何种方法是通过数据挖掘引擎来决定的,数据挖掘引擎通过分析数据的特点从而确定采用何种方法来计算。

(6)评估模块,在进行数据的计算分析与归类之后,会自动的为数据系统的应用进行综合的评定与评估,模式评估能够呈现出数据挖掘技术应用的具体结果。

3.2 系统设计原则与方法

Hadoop 本身就是一个数据计算技术,对海量数据进行计算与分析是Hadoop 技术的主要特点,而应用数据挖掘系统,只会让Hadoop 技术的计算功能更加具有针对性与实用性,能运用到具体的业务当中。Hadoop 技术本身就具有强大的计算能力,它能够让数据挖掘中各个数据集群点变得更加明显,各个模块能根据不同的计算要求,扩张Hadoop 集群,根据模块的数据特点对数据庞大的数据量进行分层,通过分层,各个数据之间的特征就非常明显,以此就能够根据数据特点来综合运用计算方法。另外,Hadoop 技术中的HDFS 提供了大量的数据存储空间,一个公司、企业内部会有大量的数据信息需要存储,而且HDFS 还提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS 能够根据数据信息的特点特征进行定量存储,高效、快速的接收各种数据信息,对数据进行预处理,方便后期的数据挖掘。

3.3 数据挖掘的层级功能

根据数据挖掘系统的分层功能,可以将数据挖掘系统具体分为三个层级:

3.3.1 交互层

交互层可以将各个模块的指令端口结合在一起,这样就可以接收到系统中来自各个方面的指令,且只需要用户登录进去,就可以进入系统的主数据库。

3.3.2 业务应用层

业务应用层可以接收来自交互层的信息指令,从而根据指令来进行计算过程,主要依靠的是HADOOP 设置,拟安排一个逻辑思维,使得系统按照既定的原则实现业务操作。

3.3.3 数据挖掘平台层

经过预处理的数据信息可以存储在数据库中,在这个层级上,数据信息可依靠系统实现应用价值的提升与优化。这是整个数据挖掘系统的核心,数据挖掘平台层可以实现数据的深层挖掘,从而发现数据中隐藏的信息。而且,数据挖掘平台层可以展现出数据在经过计算之后的结果与类型。

4 基于HADOOP的数据挖掘技术的应用展望

目前,很多高校都应用了以HADOOP 技术为基础的数据挖掘技术系统,为学校提供大量的数据计算与分析功能。但是随着现代信息化技术的发展,数据挖掘技术的功能已经在悄悄改变着。数据挖掘系统已经不再是简单的为高校提供数据计算、分析功能,同时还可以为高校建筑提供一定的系统监测功能,对学校内部各个宿舍、教学楼、办公楼等地进行综合的监测,监测每幢楼内部的能源消耗情况,同时,还提供了报警系统,高校内部的教学楼、宿舍楼有大量的电线和电压表,学生在日常生活中如果出现用电不安全的情况,会造成很严重的后果。因此,为了监测学生们的用电消耗量,同时也为了学生的用电安全,安装数据挖掘系统的同时还提供数据监测功能,一旦发现出现数据异常的情况,或者其他危险性情况,都可以及时采用报警系统。未来,数据挖掘技术会应用于高校的各个方面,为学校的建设发展以及学生的个人发展提供大量的数据支持。

5 小结

在大数据时代背景下,人们生活和工作的方方面面都可以用数据来体现,数据挖掘技术能够挖掘在数据背后的意义,通过分析一系列数据可以从中得到一定的结论。高校学生大量的消耗能源,这并不是一个高校应该体现的教育教学面貌,然而大量的数据是无法用人工的力量进行计算与分析的,只能通过数据信息技术系统来实现,不仅可以计算、分析数据结果,还可以得出一定的结论,通过数据挖掘技术可以进一步分析学生的能源消耗主要集中在哪一方面,从而做出一定的调整措施。人们生活方式的改变推动了数据挖掘技术的出现与应用,而数据挖掘系统主要应用HADOOP 技术,它可以实现数据的存储与计算功能,为各个大型企业海量的数据进行综合的计算、分析与存储,从而得出一定的数据信息,企业可以通过数据挖掘技术进一步取得产业在行业发展中的信息与发展状况,通过数据信息总结出企业下一年度的生产经营策略与方案计划。本文研究了基于HADOOP 技术的数据挖掘系统的应用,描述了数据挖掘与HADOOP 技术的概况,同时还分析了当前数据挖掘技术应用的现状,综合讨论了基于HADOOP 的数据挖掘系统的构成与设计,从构成要素、系统设计原则与方法、数据挖掘的层级功能这三方面展开了详细的分析与研究。在大数据时代背景下,企业的任何生产经营,或者是人们的生活等都可以通过数据来体现,通过数据挖掘得到的数据信息都可以第一时间为企业的决策者提供各方面的关于企业生产经营状况的信息,由此可见,数据挖掘技术是今后现代信息技术将要发展的重点。

猜你喜欢

数据源数据挖掘分析
隐蔽失效适航要求符合性验证分析
电力系统不平衡分析
Web 大数据系统数据源选择*
基于并行计算的大数据挖掘在电网中的应用
基于不同网络数据源的期刊评价研究
电力系统及其自动化发展趋势分析
一种基于Hadoop的大数据挖掘云服务及应用
基于真值发现的冲突数据源质量评价算法
基于GPGPU的离散数据挖掘研究
分布式异构数据源标准化查询设计与实现