APP下载

基于大型数据库的数据挖掘应用研究

2017-04-25王照付李麟

数字技术与应用 2017年1期
关键词:数据挖掘

王照付+李麟

摘要:随着当前大数据时代的到来,在海量数据库的数据处理和数据分析过程中,应用有效的数据挖掘技术能够大大提升数据处理的速度,同时也能够提升数据处理的准确性。本文我们基于此主要来探究在大型数据库的处理过程中数据挖掘技术的相关应用,我们从大型数据库的数据挖掘概念入手,分析大型数据挖掘系统的概况以及当前比较经典的两类多数据挖掘技术。

关键词:大数据库;数据挖掘;多数据

中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2017)01-0108-02

目前,数据挖掘技术融合了多项学科内容,不仅包含数据库技术,而且也包含有人工智能以及统计学的相关内容,数据挖掘技术在当前大数据库的数据处理方面贡献了非常大的力量,数据挖掘系统在数据库的数据处理过程中作为一个独立模块而存在,有效的协调了不同模块之间的工作,下面我们首先来看一下大数据时代之下的数据挖掘信息概括。

1 大数据时代下的数据挖掘相关内容概述

1.1 数据挖掘技术的基本概念

数据挖掘技术主要就是指在数据库的信息处理过程中,通过特定的方式和特定的手段来进行数据信息的搜索。换句话说数据挖掘技术是基于当前大数据时代而存在的,在海量数据信息处理的过程中,数据挖掘技术能够大大提升数据处理的效率。数据挖掘技术需要从当前海量数据库中不同形式,不同结构不同内容的数据通过特定方式搜寻出来,其中包含了大量不同领域的学科,通过数据挖掘技术我们能够做出归纳性的分析和总结,对于企业来说,数据挖掘技术能够有效的对市场进行预测和评估,同时也能够有效的根据客户的信息预测其未来的动向等。需要注意的是数据挖掘技术在实际的应用当中最重要的一门学科技术就是人工智能。

1.2 数据挖掘的特点以及应用

数据挖掘技术主要有以下几个特点:

(1)数据挖掘的模型是非常复杂的,数据挖掘技术主要重视的就是数据库中信息的建模过程,通过对相关数据关系进行有效的建模,把数学问题通过模型来表示出来从而有效地解决复杂的数据关系。(2)数据挖掘技术是基于当前大数据库而存在的,因此在处理数据信息上其基本的数据量是非常大的,数据挖掘主要就是从海量数据库中提出相关信息,海量数据库中的信息数据的格式结构以及内容都是具有一定差異的。总的来说,数据挖掘技术在具体实施的过程中需要有效的注意这几个方面的问题,从而保证数据挖掘的有效性和时效性。(3)数据挖掘技术跟随用户的实际需求出发,如果用户无法给出具体的要求,那么数据挖掘就会将用户所提出的有关信息进行提取,将用户所感兴趣的所有数据信息都进行反映,也就是说数据挖掘的规则性并不是唯一的,而是随着用户要求的准确性而发生变化的。(4)数据挖掘最关键的一个特点是其不同的算法最优化是不同的,评判数据挖掘技术优劣的一个关键主要就是判断数据挖掘技术的有效性而不是最优性。

1.3 数据挖掘任务探究

数据挖掘可以有以下几种不同的分类:

第一分类分析,即数据挖掘通过将一个特定的任务进行分类,通过用户所提出的具体要求,将某些特征数据信息反映到特定的类别上。分类分析的过程主要是建立一棵树,通过枝叶来向下进行逐级划分,将满足数据要求的类别进行下设,最终建立一棵树与规范要求的树。第二就是关联规则,在关联规则中比较经典的方式有Apriori算法、Sampling算法等,关联规则主要是根据用户的这一信息数据来推算出其他方面的信息数据,比如说用户在数字化图书馆借阅书籍的过程中,关联规则可以根据用户在借阅书籍的种类以及根据用户的年龄、学历等信息来推算出用户的实际工作阶层,工作内容等,通过这种方式,企业可以有效发现潜在的市场等。第三是聚类分析,聚类分析主要是指在数据信息处理的过程中,将属于同一类别的数据信息存储到一个特定的数据库当中,聚类分析与数据信息的自身结构形式有关,它会根据系统所给定的相关性能指标来直接确定数据信息的类别,当前聚类分析比较经典的算法有分解法、动态聚类法等。

2 大型数据库的数据挖掘系统

前面我们对当前大数据库时代下的挖掘技术的相关概念以及分类进行了简单的分析和概述,下面我们主要来看一下挖掘技术中关联规则、聚类以及分类三种不同算法的相关内容。

2.1 关联规则挖掘

关联规则挖掘前面我们已经简单的说明了其主要就是指针对数据信息的一个特定特征来推算出其他的数据信息,通过这种推算方式来发现数据信息中具有价值的内容。当前来看,关联规则挖掘中最为基本的算法就是Apriori算法,Apriori算法能够有效的根据用户信息的数据特征来推算出其他的数据特征,Apriori算法的基本运转原理是通过将海量数据库进行搜索之后,将数据库中的频繁集项进行搜索,然后根据所生成的频繁集项来建立一定的关联规则,最终实现有效的关联算法。在这一个具体的算法过程中,Apriori算法具有两个非常显著的问题,首先它在进行数据特征挖掘的过程中,会重复的搜索同一海量数据库,也就是说它每进行以此频繁集项的确定,就需要搜索一次数据库,而这种频繁搜素数据库的方式大大增加了搜索所花费的时间,对于数据信息巨大的数据库来说,这种方式是存在一定局限性的。其次,Apriori算法在所得出的频繁项集中,项集的数量规模是非常大的,对于Apriori算法的效率来说也造成了一定的影响,而当前人们基于Apriori算法对其进行了一定的改造,使其在运算效率和运算准确性上得到了有效的提升。

首先就是散列项集计数,通过人工智能的相关学科知识,对Apriori算法进行改造,使其能够辨识频繁项集,即如果数据库中一个具体的项集的哈希桶计数如果低于支持度,那么其不可能称为频繁项集。其次事物压缩,前面所排除在外的数据信息是不可能成为频繁项集的数据信息,也就是说这些数据信息在后续的筛选过程中可以不进行计算,不加以考虑。第三,划分,如果数据库中存在潜在的频繁项集,那么我们不能在前面两个阶段就将其排除在外,因为潜在的频繁项集在数据库中的一个划分中应当作为频繁项集存在。我们通过这几个阶段的优化,将Apriori算法的运算效率和运算准确度大大提升,使其能够在数据库的搜索过程中不再出现重复搜索数据库这一现象的出现,解决了Apriori算法的一个局限性。

2.2 聚类

聚类算法在实际的数据挖掘应用当中分为两个不同的部分,分割和分层,对于分割聚类算法来说,它主要是将所需要进行处理的数据信息进行分割,然后计算出所分割出来的程序之间的距离,根据所计算出来的距离来进行比较,然后选取其中距离最短的两个数据信息进行结合,将所结合的数据信息当做一个新的样本而存在,然后这个新的样本重新与其他的数据信息进行比较,将所计算的实际距离再次进行比对,仍然将最小距离的两个数据整合,通过这一过程不断的循环,最终就能够形成一个有效的分类距离对称表。最终所形成的就只剩下两个类别的数据信息,我们通过这种方式实现了数据信息的分类过程。

对于分层来说,其相比于分割聚类算法又进行了一定技术上的优化,既不需要进行数据信息的分割,当前比较经典的分层聚类算法是Birch算法,这一算法的优化原理主要就是能够在分类的过程中首先将一簇信息通过三元组来表述出来,为后续的分类奠定良好的基础,这种算法所得出来的树主要由具备两个参数分支因子B和类直径T高度平衡树组成。

2.3 分类

最后对于大型数据库的数据挖掘应用来说,其在分类上也有显著的作用,分类主要是根据数据信息的一个隐层信息数据来得出数据的显层信息,通过映射关系来得出二者之間的关联,然后通过RBF网络来把通过这种方式所分类出来的数据信息进行呈现。

3 多数据挖掘技术概述

前面我们对当前大数据时代之下的数据挖掘的三个主要算法进行了简单的概述,就目前来看,关联规则、分类和聚类这三种算法是比较经典在数据处理上应用比较广泛的。下面我们具体来看一下库存管理数据挖掘以及空间数据挖掘这两项技术。

3.1 库存管理数据挖掘

当前制造业发展极为迅速,在制造业的库存管理中应用数据挖掘技术能够有效的提升库存管理的效率,企业在应用库存管理数据挖掘能够有效的提供库存量以及订货量的相关数据,提升企业的经济效益,在库存管理的过程中,应用库存管理系统能够有效的提升库存管理数据的有效性,应用了智能化的库存数据挖掘能够有效地解决传统交易记录繁多,记录信息繁杂的问题,同时解决属性关系复杂的问题,不同的数据信息的层次信息是不同的,应用一定的数据挖掘则能够大大提升对不同层次数据的分类以及特征提取[1]。

就当前发展来看,库存数据挖掘系统主要就是对库存异常信息的检测、库存商品库龄的计算以及对库存预测这三项主要功能,通过这三项功能来实现有效的库存管理,提升制造业企业的经济效益等[2]。

3.2 空间数据挖掘

空间数据挖掘技术,这一项技术主要就是随着当前卫星通讯设备的发展,为了能够获得时效性的用户空间数据信息,而建立的空间数据挖掘模型,在当前的发展来看,在一些水电资源管理、交通运输业中应用空间数据挖掘技术是非常常见的,空间数据挖掘系统主要包括空间数据分析阶段、空间数据查询功能,空间数据挖掘依赖于可视化地图而存在,通过可视化地图来实现对对象空间信息数据的准确记录,并且将相关的数据信息应用到救援事业、交通事业等[3]。

4 结语

综合上文所述,本文我们主要从当前基于大型数据库的数据挖掘应用相关问题进行分析和探究,通过对数据挖掘的基本概况以及数据挖掘的基本分类来探讨分析了关联规则、聚类以及分类三种不同形式的数据挖掘。就目前的发展来看,在关联规则中,Apriori算法是比较基础典型的,在聚类算法中,Birch算法则能够在数据库的信息扫描过程中,降低扫描的时间,提升扫描的效率,从而有效的保障当前基于大型数据的数据挖掘的效率[4]。

最后,我们又讨论了当前在实际的企业发展和社会应用当中,库存数据挖掘和空间数据挖掘这两项技术的概述,总的来说,当前大数据时代的到来,数据挖掘技术一定会得到非常良好的发展前景,在未来的发展中也一定能够发挥其可行性和有效性。

参考文献

[1]王元卓,靳小龙,程学旗,等.网络大数据:现状与展望[J].计算机学报,2013(6):1125-1138.

[2]王元卓,贾岩涛,刘大伟,等.基于开放网络知识的信息检索与数据挖掘[J].计算机研究与发展,2015(2):456-474.

[3]张引,陈敏,廖小飞,等.大数据应用的现状与展望[J].计算机研究与发展,2013(z2):216-233.

[4]余伟,李石君,杨莎,等.Web大数据环境下的不一致跨源数据发现[J].计算机研究与发展,2015(2):295-308.

猜你喜欢

数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议