云环境下的信息分类算法研究

2015-03-03秦蓉

太原师范学院学报(自然科学版) 2015年4期

关键词：键值朴素贝叶斯

秦蓉

(长治职业技术学院信息工程系,山西长治 046000)

云环境下的信息分类算法研究

秦蓉

(长治职业技术学院信息工程系,山西长治 046000)

现如今,随着科技的飞速发展,信息技术在人们的生活生产中,发挥了重要的作用．而随着数据信息的爆炸式增长,传统的信息分类方式面临着许多新的问题和挑战,显然不能满足要求,由此,云计算应运而生．云计算,通过分布式处理的方式来对信息进行处理,提高了时间效率,具有很高的实用价值．文章从云环境的背景下,对朴素贝叶斯信息分类算法进行改进和分析研究．

云计算;信息分类算法;朴素贝叶斯

1 朴素贝叶斯分类算法介绍

朴素贝叶斯算法在信息分类中应用广泛,是一种重要的信息分类方法．朴素贝叶斯算法重要通过先验概率的计算来得到待分类结果．朴素贝叶斯算法的分类思想是:对待分类项,求解在此项出现的条件下各个类别出现的概率,选择概率值最大的分类作为最终的分类结果．朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法．

首先给出贝叶斯公式:

(1)

其中,P(Ci)表示类别Ci在整个C集合中的概率,称先验概率,P(X|Ci)表示事件X在类别Ci中的概率,称条件概率．

朴素贝叶斯分类的定义为:

设X={a1,a2,…，an}为待分类样本,ai为X的特征属性,存在类别集合C={C1,C2,…，Cm},若满足公式(2),则X∈Cp(p∈[1,m])．

(2)

朴素贝叶斯算法的运行步骤主要分为以下三个阶段:

首先是数据处理阶段,在这个过程中,需要根据具体情况确定特征属性,之后形成训练样本集合．特征属性的确定对后面的分类具有重要的影响,这一阶段的工作需要人工完成．

其次训练阶段,这一过程,要对每个类别在训练样本中出现的频率和每个特征属性划分对每个类别的条件概率估计,之后记录结果．在这一过程中,输入的数据处理阶段得到的特征属性和训练样本．输出的是特征属性和各类别的概率值．这一过程可由程序自动计算完成．

最后是应用阶段,这一阶段的任务是通过计算得到各类别的概率分布,最终选择概率最高的类别作为最终的分类结果．此阶段,输入是训练阶段的输出值,输出是各类别的概率统计值以及最终的信息分类结果．

2 云环境的应用

环境是基于互联网的相关服务的增加,使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源．云环境依赖于计算机集群进行任务处理,以分布式计算的方式来解决大规模数据的计算任务．

现阶段,云计算技术已逐渐成熟,Hadoop就是云环境的典型代表,大规模的信息数据通过Hadoop云平台完成数据存储,以及数据处理等操作．Hadoop以HDFS作为云存储平台,存储在 HDFS 中的文件被分成块,然后将这些块复制到多个计算机中,缓解了存储压力．MapReduce作为分布式的编程模型,系统自动将一个作业(Job)待处理的大数据划分为很多个数据块,每个数据块对应于一个计算任务(Task),并自动调度计算节点来处理相应的数据块．作业和任务调度功能主要负责分配和调度计算节点(Map节点或Reduce节点),同时负责监控这些节点的执行状态,并负责Map节点执行的同步控制．

云环境的广泛应用,为大规模的信息数据提供了一种高效的处理方式,下面将在云环境下对传统朴素贝叶斯算法进行改进．

3 云环境下的朴素贝叶斯算法的改进

传统的朴素贝叶斯算法是以集中处理的方式进行工作．为适应云环境的特点,需要将朴素贝叶斯算法进行改进,由集中式变为分布式,需要分别针对朴素贝叶斯算法运行的三个阶段进行并行化改进,将算法改写成以MapReduce并行化方法进行处理．在数据训练阶段和应用阶段可采用分布式处理的方式．

数据训练阶段,统计特征属性的频率和每个类别在训练样本中出现的频率改写成Map任务和Reduce任务,数据的输入、输出均以键值对形式．该训练过程的统计分布可分为多个job执行,每个job又分成Map阶段和Reduce阶段．Map阶段的输入即是Reduce阶段的输出．

应用阶段,计算个类别的概率分布改写为分布式处理方式,同样写成Map任务和Reduce任务,数据的输入、输出均以键值对形式．

利用朴素贝叶斯算法对信息进行分类的具体步骤为:

Step1 对所有信息进行数据预处理,过滤不满足要求的数据;

Step2 设训练样本数目为S,类Ci的样本数Si,类Ci存在属性ak的样本数为Sik;

Step4 利用Step3训练模型,将待测试的评论集合代入公式(2)中计算,得到信息X的分类结果．

对应本文中利用朴素贝叶斯进行信息处理过程,MapReduce 的工作流程为:首先将信息分词处理,之后交给Mapper处理,处理后的结果重新进行分区映射,之后交给相应的Reducer处理,产生的结果可以存储在HDFS上,分别由集群中的各节点管理．Mapper(映射)过程首先读取SequenceFile中的每一行,之后进行解析,将数据信息先交由Map处理,以键值对的形式进行读取,之后则产生另一个键值对输出．之后交由Reduce处理,Reduce阶段处理后得到的输出结果也是键值对形式,键值对中的key值表示是所有的类别,value值在每一个类别下所对应的概率值．

4 总结

本文主要研究了云环境下的朴素贝叶斯信息分类算法．首先对朴素贝叶斯算法进行了分析,根据朴素贝叶斯算法的特点,根据云环境的具体需求,对传统的朴素贝叶斯算法进行了改进,使其满足分布式处理的要求,在大规模数据信息的处理要求下,提高了时间效率,为云环境下信息分类技术的发展奠定了基础．

[1] LANGLEY P,THOMPSON K.An analysis of Bayesian classifiers[C]//Proceedings of the 10 th National Conference on Artificial Intelligence,1992:223-228

[2] LIN C J.On the convergence of the decomposition method for support vector machines[J].IEEE Transactions on Neural Networks,2001,12(6):1288-1298

[3] 陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1337-1348

[4] HAN J W,KAMBER M.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2007

Cloud Environment Information Classification Algorithms

QIN Rong

(Department of Information Engineering Changzhi Vocational and Technical College,Changzhi 046000, China)

The current, with the rapid development of science and technology, information technology in the production of people's lives, play an important role. And as the explosion of data and information, traditional way of information classification is faced with many new problems and challenges, obviously can not meet the requirements, thus, cloud computing arises at the historic moment. Cloud computing, distributed processing ways for information processing, improve the efficiency of the time, has the very high practical value. Under the background of this article from the cloud environment, information on naive bayes classification algorithm to improve the research and analysis.

cloud computing;information classification algorithms;naive bayes

2015-10-14

秦蓉(1982-),女,山西省长治人,硕士,长治职业技术学院助教,主要从事计算机数据库及网络研究．

1672-2027(2015)04-0068-02

TP391