APP下载

朴素贝叶斯分类模型在出口企业预警评估中的应用

2018-02-26周红

电子技术与软件工程 2018年16期
关键词:机器学习数据挖掘

周红

摘要

数据分类是数据挖掘和机器学习的重要基础,在众多数据分类方法中朴素贝叶斯分类方法因其理论模型简洁,分类结果比较可靠,因此实际应用领域广泛。本文将朴素贝叶斯分类模型应用到进出口企业的预警评估分析工作中,以事实数据为训练样本,通过对历史数据的学习建立可靠的分类模型,增强预警评估的客观性。

【关键词】数据挖掘 机器学习 朴素贝叶斯分类 预警评估

1 引言

如何从大数据中挖掘出有效信息的研究已经成为一个广泛关注的热点领域,其中数据分类在数据挖掘领域是一项重要的基础性任务,在规则和模式的约束下,通过训练数据集的学习,形成有效的数据分类算法,这是数据挖掘的基础和前提。在各种有效的分类算法中,贝叶斯模型因其简介、可靠、易操作,被广泛应用在各领域的数据分类工作中。

本文通过建立朴素贝叶斯分类器,使用出口企业预警评估中的数据样本训练分类器之后,能够客观有效的预测给定出口企业样本的预警评估情况,并在多个真实的生产环境中投入使用。

2 朴素贝叶斯分类

贝叶斯分类的基础是概率推理,它是在各种条件的存在不确定,仅知其出现概率的情况下,完成推理和决策任务。贝叶斯分类是一种监督学习方法,它建立在贝叶斯定理的基础之上,通过事件的先验概率,利用贝叶斯定理推导计算出后验概率。它是基于特征独立性假设的,即假设样本中所有特征相互独立。朴素贝叶斯分类器依靠精确的自然概率模型,在有监督学习的样本集中能获取得非常好的分类效果。

贝叶斯分类算法的核心是建立条件概率模型,其模型建立过程如下:

2.1 样本属性及其属性的特征向量空间

样本属性的选择可根据待评估的具体对象而定,不同的评估对象选定的样本属性不同,但是要符合特征独立性假设。记样本属性为:{x1,x2,…xn;c},其中,xi(1≤i≤n)表示属性,c表示样本的分类。每个样本使用一个n维特征向量X={x1,x2,...,xn)表示,描述一个样本n个属性的一个度量值。

2.2 分类的属性及其属性的特征向量空间

分类的属性由一组特征向量表示,记为:C={c1,c2,…,cn},其中,ck(1≤k≤m)表示具体的一个分类标识。

2.3 建立朴素贝叶斯分类模型

分类器的工作基础就是根据已知样本的先验概率预测未知样本的分类。给定一个未分类的数据样本Y,分类器将根据其学习所得的先验经验计算未知样本Y的最大后验概率,从而对未知样本进行分类。其分类判断的标准就是:当且仅当P(cjX)>P(ck|X),j≠k,分类问题最后转化为求最大的P(ck|X)。由贝叶斯定理得:

公式中,P(X)在分母中,不依赖于分类C,可以认为是常数,这样公式就转化为求P(X|ck)·P(ck)最大值的问题。而P(X|ck)=P(x1|ck)·P(x2|ck) ·…·P(xn|ck)=其中P(xi|ck)(i=1,2,…,n)都采用极大似然估算,即|T|代表训练样本的总数量,|T(ck)|代表分类为ck的训练样本数量,|T(xi,ck)|代表样本属性X上具有xi的分类cck的训练样本数量。

2.4 预测未知样本

根据上述分类模型的计算步骤可知,判断一个未知样本的分类就是根据这个样本的属性特征计算分类C中每一个分量Ck的最大概率P(X|ck)·P(ck)。因此,未知样本Y被判断为Cj的条件是当且仅当P(X|cj)·P(cj)>P(X|ck)·P(ck),其中1≤j,k≤m,j≠k。

从上述推理过程来看,朴素贝叶斯分类方法具有严谨的概率推理基础,与其他的分类算法比较具有最小的错误概率。在具体实践中发现,朴素贝叶斯分类算法可以与判定树算法和神经网络算法相媲美,即便是推理中的假设不满足的情况下仍能得到理想结果。朴素贝叶斯分类算法训练的时间复杂度为O(n·|T|),具有较高的学习效率,这也使得它在具体实践中具有广泛的应用。

3 出口企业预警评估实例

出口企业预警评估工作的核心和关键模块是建立预警分析的分类预测模型,通过多方论证和具体实践发现,贝叶斯分类算法在进行出口企业预警评估指标的分类中具有较高的准确性和可靠性,能够为出口企业和相关主管单位提供事前预警和事后分析的客观决策依据。

在建立具体预警评估的预测模型时,我们先建立出口企业的预警评估分类的特征向量空间C={c1:收结汇正常,c2:收结汇关注,c3:拒付汇退运}。训练样本集以江苏省某市的出口企业为依据,样本属性的特征向量空间X={x1:出口商品类别,x2:出口目的国,x3:离境口岸,x4:年度出口规模,x5:供货企业信用等级}。样本数据的各个属性之间概率独立,符合朴素贝叶斯分类算法的假设性要求。下面对样本数据的各个属性值做如下规则的劃分:

(1)出口商品类别:按照海关HS编码进行划分,一般是8位数字码,国际贸易中的商品分为21类97章。HS编码的前2位表示商品所属的大类别,进行划分时取前2位作为出口商品类别,即商品类别(SPLB):(SPLB∈[01000000,01999999],SPLB∈[02000000,02999999],SPLB∈[03000000,03999999],SPLB∈[04000000,04999999],SPLB∈[05000000,05999999],SPLB∈[06000000,06999999],SPLB∈[07000000,07999999],SPLB∈[08000000,08999999],SPLB∈[09000000,09999999]),以上9类依次标记为1、2、3、4、5、6、7、8、9。

(2)出口目的国:按照进出口贸易的国别代码进行划分,即出口目的國(CKMDG): (CKMDG=国别代码)。如(CKMDG=110:HK),(CKMDG=303:UK),(CKMDG=501:Canada),(CKMDG=502:USA)(CKMDG=601:Australia)。

(3)离境口岸:即进出口的货物离境或者到岸的海关口岸,按照海关总署的海关口岸代码进行划分。江苏省内某市的海关口岸代码有:离境口岸(LJKA):(LJKA=2303:苏州海关),(LJKA=2313:张保税区), (LJKA=2314:苏工业区),(LJKA=2324:苏常熟办),(LJKA=2325:苏昆山办), (LJKA=2326:苏吴江办),(LJKA=2327:苏太仓办)。

(4)年度出口规模,即一个自然年度的进出口贸易总值(单位:万美元),年度出口额(NDCKE):(NDCKE<500,500≤NDCKE<1000,1000≤NDCKE<3000,3000≤NDCKE<7000,NDCKE≥7000),以上5类依次标记为M5、M10、M30、M70、M71。

(5)供货企业信用等级:按照国家税务总局的纳税人信用等级分类进行划分,国税局发布的分类等级依此为A、B、C、D、E、F,即供货企业信用等级(XYDJ):(XYDJ=A,XYDJ=B,XYDJ=C,XYDJ=D,XYDJ=E,XYDJ=F)。

建立上述各个属性的分类标准后,我们采用江苏省某市的60家出口企业的样本数据作为训练样本(样本数据见附录),对朴素贝叶斯分类器进行训练。通过训练之后的朴素贝叶斯分类器能够对某一未知分类的出口企业样本数据Y=(3,501,2313,M30,C)进行准确分类,通过出口企业预警评估的工作实践来看,训练后的贝叶斯分类器在实际工作中具有较高的准确性和可靠性。

每个分类的先验概率Pck)根据训练样本数据计算如下:

要计算P(X|ck),k=1,2,3,需要先计算如下的条件概率:通过以上条件概率我们可以得到:通过以上条件概率,再计算

很明显,P(X|c2)×P(c2)的概率可能性最大,因此对于未知样本Y=(3,501,2313,M30,C)应该划归为(c2:收结汇关注)的可能性最大。而事实上,该出口企业的收汇情况也是多次出现结汇异常和延期结汇等情况,被地方国税局列为收汇关注企业名单中。

4 结论

朴素贝叶斯分类算法建立在概率推理基础上,算法严谨简洁,学习效率高,分类误差率低,是一种比较优秀的数据分类算法,在数据挖掘和人工智能领域应用广泛。本文阐述了朴素贝叶斯分类算法在出口企业预警评估领域的具体应用,通过实践证明朴素贝叶斯分类算法的有效性和可操作性。

参考文献

[1]Jiawei·Han,Micheline·Kamber著,范明,孟小峰译.数据挖掘:概念与技术(第二版)[M].北京:机械工业出版社,2012.

[2]Anand·Rajaraman,Jeffrey David Ullman著,王斌译.大数据:互联网大规模数据挖掘与分布式处理[M].北京:人民邮电出版社,2012(09).

[3]Ethem Alpaydm著.范明,昝红英,牛常勇译.机器学习导论[M].北京:机械工业出版社,2009(06).

[4]George F.Luger.ArtificialIntelligence:Structures andStrategies for Complex ProblemSolving(6th Edition)[M].北京:机械工业出版社,2009(12).

[5]张亚萍等.朴素贝叶斯分类算法的改进及应用[J].计算机工程及应用,2011(15):134-137.

[6]曹开田,杨震.基于贝叶斯判决规则的异步合作频谱感知新算法[J].南京邮电大学学报(自然科学版),2012(02).

[7]陈朝大,梁柱勋,郑士基.一种利用关联规则的改进朴素贝叶斯分类算法[J].计算机系统应用,2010(11).

[8]王晓燕.几种常用的异常数据挖掘方法[J].甘肃联合大学学报(自然科学版),2010(07):68-71.

[9]袁家斌,浦海晨.基于遗传算法优化的神经网络电子邮件信息分类器的研究[J].南京理工大学学报(自然科学版),2008(01).

[10]张亚萍,胡学钢.基于K-means的朴素贝叶斯分类算法的研究[J].计算机技术与发展,2007:33-35.

猜你喜欢

机器学习数据挖掘
基于并行计算的大数据挖掘在电网中的应用
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究