APP下载

数据挖掘中分类算法的研究与应用

2019-11-11雷波

电脑知识与技术 2019年27期

雷波

摘要:随着科学信息技术和电子计算机的不断发展进步,大数据的处理就成了人们的当务之急。分类算法在数据挖掘中起到了重要的作用,是我国重点研究领域。它的算法是通过对当前数据挖掘中的大数据进行筛选分类,对数据挖掘中具有显著性、代表性的优秀优质算法分类进行详细的比较与分析,并且从中总结出各种算法的特征,为使用者选择算法或对研究者总结算法提供了十分有效的证据。它能够解决很多问题,有助于解决单一组合分类的集成学习方法,并且能够很好地完成数据处理的工作。本文就以根据不同算法数据,从中找出算法之间的相同和异同等,能够进一步的推广支持分类算法,并且能够为该算法打好了扎实的基底。

关键词:大数据挖掘;分类算法;ID3算法;SLIQ算法;生活中的应用

中图分类号:TP3      文獻标识码:A

文章编号:1009-3044(2019)27-0232-02

1 当代数据挖掘研究背景

在当代快速发展的都市背景下,大数据挖掘的思维理念已经渗透进了很多企业行业,这种方式给计算机行业带来了更好的发展机遇方向,同时也带来了不少的挑战。因而想要完全熟悉驾驭这门行业必须要做好大数据挖掘的相关工作,掌握数据分类算法这对大数据的挖掘是十分有帮助的,并且能提高工作效率,但是大数据的分类算法是大数据挖掘中最难的一道关卡。随着人们对于大数据的不断深入的发展研究,人们开发出了多种多样的分类算法,它有助于减少工作操作的难度,提高了人们的工作效率。人们进行相对应的数据分类时通常是以数据分类器作为标准的,其中包括决策树类、基于关联规则类、Bayes类以及各种利用数据库技术类等,以下本文就要对各种算法其详细而又简单的阐述。

2 分类算法的简介概述

分类算法在数据挖掘中占据了十分重要的地位。它能够帮助我们进行分析一个分类模型或者分类函数的运算,并且能够将给定的数据映射到指定的类别区域之中的某一个在数据库中分类模型之中。可以通过分类模型来预测未来数据的发展趋势并且还可以提取描述一些重要数据分析。以下可以作为分类的例子:

当输入一串数据或者是训练集,这些是由一系列数据库记录而组成的。这每一条记录可以组成一条特征向量,其中的每一条都包含了许多的属性内容。在训练集数据中每一条的记录都与各个特定的类标签相之对应。通常这些数据条的输入往往是一些经验数据,样本向量(V1,V2…VN;C)就是个具体样本的形式。

在决策树中通过输入一定的数据样本就能够得到准确的分析并且表现出的未来特征特性在所得到的训练集中和为精准的在每一个训练集能够找到一个相对应的模型或者描述在每一个训练集中这些都是大数据的分类目的。因此分类法可以生成的对未来测试的数据进行分类的有效规划。但是我们都是抱以未知的态度对这些生成的未来的测试数据类标签,所以我们也应该对预测这些新的数据进行详细的分类。不能对这些预测出来的数据抱以完全相信的态度,而且我们还要理解好分析好每一个数据。 这样让我们获得了比较正确的知识类别。

3 决策树分类算法

在分类算法与预测之中,决策树技术是其中最主要的技术之一,归纳学习的方法是决策树分类算法的实例基础。决策树分类算法针对各组无规则、无次序的事例推理出决策图的分类规则和表示形式。它的递归方式采用的是自顶向下,这种算法可以通过根据指定数据的不同属性来分析推断向下该数据的分支决策路线,并且可以从决策树上的叶节点获得相关数据的结论预测。因此从数据决策树的根部一直到叶节点各对应每一项的合取规则,各个部分间规则的关系便是合取关系。一组析取表达式的规则规矩就对应着整棵树的决策。

对于学习决策树算法最大的优势优点就是非常容易简单去学习,在决策树中即没有让使用学习者进行了解分析的背景参数知识,使用学习者直接对在学习训练中出现的的问题和例题进行反复较好的标注学习即可。可能在学习算法过程中也会出现一些棘手的疑难杂症。例如以下几点主要问题:

1)在数据标注时出现的问题:要进行完全的标注所有的属性在有些数据之中。

2)在选择特征时出现的问题:要对出现的数据属性进行严谨仔细地分析了解并且得到结果哪些数据是可以用来分类的。

3)在进行分支准则时出现的问题:毕竟在众多数据分支准则中,必须做的使最终的决策树更加令人满意,所以每一步选择哪一种准则会一定不要出现问题。

4)分类停止条件的问题:一定考虑决策树到达什么的条件时停止生长。

3.1 决策树归纳算法ID3(c4.5)算法

训练样例集也称之为Examples,Attributes算法则属于决策列表属性,这两个都属于ID3算法。这种ID3算法是通过选择窗口的方式进而形成决策树的,它能经过互信息来寻找信息论里最大信息量的属性字段,通过这种方法手段来建立每一个节点在决策树中,并且去不同的分支根据属性字段来建立决策树的下层节点与分支过程。在ID3算法中的优势是具有极快的分类速度、能够简单的描述、非常适合运用于处理大规模数据。不过作为单一的属性能力度量当ID3算法借用信息论时,它目的是能够适当地减少决策树的平均有效深度,但是却忽略了对决策树叶片的研究。但是其启发式函数不是最好的,存在有不少的问题隐患。比如以下几个例子:

1)在互信息的计算之中,比较偏向依赖于较多特征的属性取值的数目;但是具有较多的属性取值的属性数据可能并不是最好的。

2)学习ID3算法是运用了非递增的学习算法。

3)在训练计算时,该算法抗噪性比较差,所以出现的正例和反例是比较难以控制的。

最后的算法返回一棵能够给出正确分类的Examples的决策树。1.首先要建立一棵树的根节点Root。2.如果所指定的训练样例集都是同一类别,则要将此节点记录成该类,并且要返回原单节点树Root。3.加入决策属性列表为空白,则在训练样例集中该几点标记为最普通平常的类,然后就要返回单节点树Root。4.下一步就开始否则运算,Attributes接近于A则该分类中训练样例集;分析A接近于Root的决策属性;分析对于A的每个可能的值Vi。

3.2 决策树归纳算法SLIQ算法

“预排列”与“广度优先”技术主要运用于在SLIQ决策树的构造过程中,这两种技术在SLIQ中起到重要作用。能够进行评价节点分裂质量的参数因素是在数据中的使用信息量在一般的决策树中。一般在SLIQ算法计算时,运用gini的指标参数来取代信息量,因此能够对大数据集的n各类别进行数据集S的定义。所得到的gini数值越小,获得的信息量就越大。它和一般的决策树不同,这种算法采用的则是二分查找树的结构来进行运算的。它要对每一个节点都能给出相应的最佳的分裂方案,随之进行分裂演算。在关于A<=v的连续数值型字段分列式,可以该算法会对数值型字段首先进行排序,假定分类排序后的结果会出现n个v,因为分裂只在两个节点之间计算,所以会出现n—1个可能的目标。一般取该式子的中点作为分裂点,再从小到大可以取不同的分裂点(split point),在所有点之中获取信息量最大、gini最小的点就是分裂点。在SLIQ算法演算过程中,工作量操作量代价非常大,需要准确的排序每一个节点,其中的最重要问题就是要降低排序的成本,不过在SLIQ算法中有着很好的方案对于解决排序困难这个棘手的难题。

在离散型的字段之中,我们要求出设立的S(A)所有可能取到的A值,并且在分裂测试中要分析取遍所有的s,(s,是s的子集)。当算法分裂为s,和s-s,时然后找到gini的指标,并且取到gini最小值,这就是该算法最佳最好的分裂方法。很明顯的是,这种算法是对合集S中的每一个子集S,进行分析演算的过程,此算法一共要计算2|S|次,其中的操作程度也是相当复杂的,代价也是极大的。因此一定要对SLIQ算法进行一定的优化才能更高校率的计算。

在实际运算中,SLIQ这种算法一般比ID3算法处理更多更大的数据集,能够得到准确的数值。优点就在于能够获得更好的更优的数据记录个数与属性上的可扩展性的增长。不过该算法也不是毫无缺点问题的,比如下列几点问题:

1)因为内存中要存放所需要类别的列表,但是在训练集长度和列表长度上两者是相同的,这种情况就相对限制了数据集本身的长度大小对算法有不利的影响。

2)在算法过程中一般运用预排列的手段,不过这种技术它的复杂程度与相对记录的数据个数不成线性关系,所以SLIQ算法中没有因为随着数据记录的个数增长的线性可扩展性。

4 数据挖掘的分类算法在生活预测方面的运用

在以上所有的各种算法中,各有各的利弊,没有一种算法是能够满足人们对各个方面的需求,所以必须在具体的工作范围中,根据工作的类型方式和收集数据程度大小,来判断选择一项合适高效率的算法来解决困难。比如,在XX市的公交交通线路规划预测项目中,可以运用决策树分类算法对数据采集分析,应用于根据对居民的出行数据情况,研究出居民日常运用公交出行的数据决策树图,可以为方便居民的出行预测出坚实的数据基础,优化了决策的可靠性。并且可以根据数据的离散化,我们可以根据来自训练集中记录中的户口、年龄、职业、岁数等来判断是否公交出行。因为所需要的记录并不是很大,所以我们可以运用内存中存留的算法来计算。这里可以运用ID3算法来计算出大数据决策树,在计算中可以自动选取算法中相对应的测试属性。在数据的决策树中可以得到的第一个选取分类属性为户口,第二点为职业因素,第三点为岁数年龄因素。可以根据决策树反映出来的这些信息以及通过公交出行人数的比重,来对公交交通线路规划提出有力的依据证明,辅助解决相关政策依据,并且还能帮助统计局进行统计人口相关详细信息。

5 结语

分类算法是在作为大数据的挖掘中最重要的组成部分之一,近些年来分类算法出现了很多方法,并且研发出还有很多改进优化的算法,当今研究出的算法运用在实际生活中也已经趋向于成熟。所以分类算法在统计大数据中占据了非常重要的地位,对帮助政府辅助策划、公交出行规划统计、保险行业、股票银行交易等行业方面上有很大的帮助,也可以为控制风险投资人员决策方面有很大的帮助支持。可以利用分类算法找出人们生活中的一些规律规则,为生活出行等各方面进行预测分析、为各项决策提供有力的依据。运用这种手段可以高度自主分析企业等各行业原有的数据,进行归纳整理,分析提取中商业潜在的价值模式方法,预测出客户即将做出的行为,可以帮助企业家做出正确有利的有依据的决策方向,提供了一些新的思路方法。

参考文献:

[1] 王光宏,蒋平.数据挖掘综述[J].同济大学学报(自然科学版),2004,32(2):246-252.

[2] 姜园,张朝阳,仇佩亮,等.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662.

[3] 谈恒贵,王文杰,李游华.数据挖掘分类算法综述[J].微型机与应用,2005,24(2):4-6.

【通联编辑:张薇】