APP下载

数据挖掘中分类算法的研究及其应用

2018-09-30王飞

商情 2018年41期
关键词:决策树数据挖掘

王飞

[摘要]通过机器学习及统计理论,再结合数据库的产物就是数据挖掘技术,这项技术是在模糊的、不完全的、随机的大量实际数据中来提取出那些隐含的、有潜在价值的、原先未知的有效信息,这是一个庞大的不平凡的过程。而数据挖掘领域中主要的研究课题就是分类算法问题,同时这也是数据挖掘中最重要的技术之一。分类就是一项利用分类器来对未知类别样本进行分类从而赋予类别的技术,这里的分类器是指根据数据集的特点来构建的。就目前分类算法来看,主要有神经网络算法、遗传算法、贝叶斯网络算法、决策树分类算法等。因为不同的分类方法会产生不同的分类器,而分类器的好坏又直接影响着数据挖掘的准确性以及效率,所以,当面对海量的大规模数据的分类情况时,选择一个最为合适有效的分类方法是非常重要的。

[关键词]数据挖掘;分类算法;决策树

一、数据挖掘和分类算法的基本概述

数据挖掘作为一个交叉学科领域,它包括了机器学习、统计学、数据库和信息科学等,所以会受到多个学科的影响。从本质来看,数据挖掘其实是一种支持决策的过程,它的主要的技术手段就是统计方法,这些统计方法包括多元统计方法、数理化统计方法以及时间序列分析方法等,除此之外,近年来数据挖掘也出现了新的统计思路发展,比如人工神经网路、统计学和专家系统技术等。其主要的特点就是能够深度自动分析原有的混乱的大数据,然后从中找出规律从而归纳推理挖掘出新的隐含的有价值的模式,依次来预测客户的行为,从而有利于决策者做出最为正确有效的决定。

目前数据挖掘的研究方向主要有分类挖掘、聚类挖掘、关联规则挖掘,序列模式发现以及趋势发现等,但其中最成熟、最重要的研究方向是分类挖掘,所以说,分类算法是数据挖掘中最为重要的技术之一,同时也是数据挖掘中至关重要的一个研究课题。分类的主要目的就是构造一个分类器,也就是分类模型,而这个模型就是能把数据库中的数据给映射到其同一类别的某一个中,因此分类算法可用于提取重要数据和用来预测未来数据趋势。分类通过对输入的数据进行分析表现出来的特性,再为每一类找到其准确的模型,由此来对未来的测试数据进行分类。虽然这些数据是未知的是混乱的,但我们仍然可以根据模型来预测这些新数据的归属类别,因此我们也可以更好地理解数据库中数据的每一类别。换句话说,我们获得了对这一类别的知识的了解。

其中包括三种分类器比较评价:预测准确度、计算复杂度和模型描述简洁度。预测准确度是目前用的最多的一种比较评价尺度,尤其是对于预测性的分类任务;计算复杂度是在数据挖掘中依赖具体的硬件环境和操作细节,所以最重要的一个环节就是时间和空间的复杂度;而模型描述的简洁度指的是对于描述性的分类任务,模型越简洁实用越受到喜爱。但大部分的分类算法都是内存驻留算法,不过最近市面上出现了新的可伸缩性的分类技术,比如神经网络算法、遗传算法、贝叶斯算法和决策树算法。这些算法可以处理大量的驻留在磁盘的数据,而在这些新兴的分类算法中,决策树相关算法又是最为重点研究的课题方向,同时研究成果也较之其他方法较多。

二、几种分类算法

(一)神经网络算法

神经网络算法是指通过一定的规则把简单的神经元连接在一起构成新的网络系统,这种系统能够模拟人类大脑的结构和功能,可以应用某种学习算法来从数据样本中进行学习,然后把获取到的知识储存在网络各个单元间的连接权中,其中连接权值就是一个分布式的矩形结构。在学习算法阶段,神经网络通过调整神经网络的权来使其可以预测出输入样本的正确类别。这种神经网络算法主要有三种模型:前向神经网络模型、后向神经网络模型和自组织网络模型。其中应用最为广泛的就是前向神经网络模型。神经网络需要的训练时间很长,因为它需要大量的数据参数,而这些参数一般主要依靠经验确定,例如网络拓扑结构。神经网络的优点是能够承受较高的噪声数据,以及先天拥有较高的对数据进行分类的能力,而缺点就是由于过于依赖经验导致可解释性差。

(二)遗传算法

遗传算法是指通过模拟生物进化过程来达到全局优化的方法,把初始的较劣解通过一系列遗传算子在求解空间内按照一定随机规则来搜索直到得到问题的最优解。遗传算法的优势就是具有隐含并行性及易于和其他模型相结合,使得它广泛应用于数据挖掘领域,还可以与BP算法结合来训练神经网络,使其可以从网络提规则。它的劣势就是在数据挖掘中遗传算法较为复杂,而且还存在收敛于局部极小的过早收敛等问题。

(三)贝叶斯分类算法

贝叶斯分类算法是一种基于概率统计学的贝叶斯定理,在已知先前概率和类似条件概率的情况下,对成员关系进行预测的一种分类算法模式,比如计算一个给定样本的属于一个特定类别的概率,同时选定其中最大概率的一个类别作为该样本的最终类别。利用先验概率再验分布的贝叶斯方法十分的直观,而且只需要扫描一次训练数据就可以得出模型,但是由于贝叶斯分类假设的前提是各变量之间相互独立,因此需要提前对连续的数据进行分类,所以对解決实际问题有过高要求。

贝叶斯分类算法常见的有两种模型,朴素贝叶斯算法和贝叶斯信念网络算法。朴素贝叶斯分类算法模型可用于大型的数据库,同时也表现出了较高的速度与准确性,这些特性可以和神经网络算法和决策树算法相媲美。虽然从理论上来看,朴素贝叶斯算法与其他所有算法相比具有较高的准确性,但是实际来讲,并不是这样,因为朴素贝叶斯算法对其应用的假定具有不准确性,并且缺乏可用的概率数据,同时,朴素贝叶斯算法也没有规则的输出。所以针对该缺点,研究出现了一些可以降低独立性假设的贝叶斯改进分类算法,比如半朴素贝叶斯算法、贝叶斯网络信念算法等。所以另外一种常见的贝叶斯分类算法模型就是贝叶斯信念网络模型,它是一种图形模型,是由两部分组成的。贝叶斯信念网络模型的—个至关重要的特性就是他有—个结点,如果已知其父母结点,那么其条件独立于其的所有非后代结点,所以说也可以用贝叶斯网络信念来代表朴素贝叶斯分类其中的条件独立假设。

用概率来表示各种形式的不确定性是贝叶斯分类算法的关键所在,贝叶斯算法还可以用来对不直接使用贝叶斯定理的其他分类算法提供依据。同时基于聚类分析思想,可提出一种更加合理可信的各方面都优于朴素贝叶斯算法的修补算法。将贝叶斯算法的先验信息和决策树分类算法的信息增益法相结合,也就是将贝叶斯分类算法和决策树分类算法的优点相结合,那么在处理不完整或不一致的大量数据时,就会比单一的使用贝叶斯算法或单一的使用决策树算法更加有效率且准确度也会更高。

(四)决策树分类算法

决策树分类算法运用的是决策树技术,决策树技术则是用来分类和预测的主要技术。它采用的是自上向下的分支方式构造,着重于从一组无规则、无顺序的事例中来推理出决策树从而表示形式的分类规则,它是以实例为基础的归纳学习算法。决策树分类算法能够很好地学习分析噪声数据得出表达式,是目前被使用的最为广泛地分类算法之一。所谓的决策树就是一种用来表示人们为了做出某个决策进行的一系列判断过程的树形结构,它包括决策结点、分支节点、叶子节点等。决策树最上面的节点就是根节点,表示整个决策树的开始,然后从根节点再到叶子节点的一条路径就形成了一条合取规则,那整棵决策树对应的就是一组表达式规则。决策树中的每个决策结点代表的是在一个属性上的测试,每个分支代表的是一个测试输出,每个叶节点代表的是类或类分布。也就是说,决策树分类算法就是通过比较决策树和样本的属性,来对未知的样本进行分类。

决策树分类算法的优点首先是决策树易于被理解和解释,这样人们在通过合理的解释后才会有能力去更好的理解决策树所表达的含义;其次是对于决策树,它能够同时处理常规型的和数据型属性,同时数据的准备不像其他技术一样要先把数据单一化;然后是决策树可以在相对较短的时间内对大型数据进行分析做出有效可行且效果良好的结果,而且决策树算法易于通过静态测试来对模型进行评测;最后关键的是决策树可以很好扩展到大型的数据库中,同时其大小又能相对独立于数据库的大小。虽然决策树分类算法有很多优势,但它也有其局限性,比如决策树对于数据缺失情况的处理比较困难,在处理数据时会出现过度拟合的问题。而且对于那些类别不一样的数据,决策树的处理结果更偏向于那些具有更多数值的特征而忽略了数据集中属性之间的相关性。在决策树建树过程中,没有哪一种属性选择的方法是最好的,每种方法都会存在它的优缺点,只有合适与不合适之分。但总而言之,决策树分类算法是当前数据挖掘中所采用的最为成熟有效的一种分类规则学习方法,因为它直观易于被理解、被实现,也易于提取规则,达到较高的效率。

三、總结

分类和预测是数据挖掘中最重要的部分之一,对于数据挖掘的分类算法有很多,近年来又出现了很多新的改进的算法,比如基于贝叶斯的TAN算法和基于粗糙集的决策树算法等。在数据挖掘应用中,用户要根据数据的特点来选择合适的分类算法或者是混合的交互分类算法。在以后的工作中,为了更进一步的提高分类的准确性同时将达其计算的复杂性,就更应该综合多领域的技术,力将分类算法与多学科相互交叉渗透,使其向着更加多样化的方向发展。

猜你喜欢

决策树数据挖掘
数据挖掘技术在内河航道维护管理中的应用研究
简述一种基于C4.5的随机决策树集成分类算法设计
一种改进的MEP决策树剪枝算法
数据挖掘综述
决策树学习的剪枝方法
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
决策树在施工项目管理中的应用
一本面向中高级读者的数据挖掘好书