基于特征加权的朴素贝叶斯学情预警分类研究

2019-05-16钟新成

山西大同大学学报(自然科学版) 2019年2期

钟新成

(长治学院计算机系，山西长治046011)

近年来，高校大学生普遍出现了沉迷于网络游戏、对前途感觉到迷茫、缺乏危机意识、厌学、上课睡觉玩手机等现象，很多学生因挂科数量太多而被劝退，虚度了自己的青春、辜负了父母的心血、浪费了社会资源。学情预警是现阶段高校加强学风建设和教育教学质量的重要环节[1-2]。其目的是为了采取某种防范措施引导及督促学生学习，让学生能顺利的完成学业。针对学生在校求学过程中的不良记录及厌学倾向，及时排查，及时提示，告知本人和家长长此以往可能导致的利害关系。由于目前的学情预警仅以不及格数量和上课出勤情况来决定是否需要预警的局限性，它只能挑选出明面上需要预警的学生，且具有滞后性，并不能起到防范于未然。在考虑到可能影响学业的主要因素下，拟采用机器学习中的朴素贝叶斯方法对学生进行分类。

朴素贝叶斯模型（Naive Bayesian Classifier,NBC）具有很好的健壮性和高效性，其模型简单，即使属性间有关联，它也能取得不错的分类效果。现今已广泛应用于分类、聚类等数据挖掘领域。但由于其将所有属性看做是独立的，建模过程中会丢失很重要的数据信息，所以存在一定的局限性。目前，很多学者都致力于模型的改进，大致可分为两类，一种是抓主要矛盾，放松属性变量间独立性的限制，考虑局部的相关性；一种是仍采用朴素贝叶斯的优良模式，只是从不同角度进行加权，以达到改善分类的效果。鉴于加权模式的时间复杂度较低且具有良好的分类效果，将加权模式与朴素贝叶斯进行结合，给出了基于加权朴素贝叶斯的学情预警分类算法。

曾谁飞等[3]提出一种改进的朴素贝叶斯增量算法，该算法的基本思想是借助传统类置信阈值去构建一个最小后验概率来作为样本选择的双阈值，一旦发现语料中有新的特征，便会将其加入特征空间，并对分类器做相应的更新。实验结果表明，类置信阈值对原始增量算法起到了很好的补充作用，分类效果也较原始增量算法优。石洪波等[4]提出一种限定性的双层贝叶斯分类模型，该模型基于分类原则和贝叶斯定理，通过选择关键属性建立属性间的依赖关系，并在数据集上取得了不错的分类效果。王双成等[5]针对连续朴素贝叶斯不能有效反应属性间的条件依赖关系，而是依赖特别繁杂且难以实现的联合密度估计，提出一种基于高斯核函数的连续属性完全贝叶斯分类算法，结果表明，该算法能很好处理连续域的分类问题。张鹏等[6]给出一种基于数据处理和特征重构的朴素贝叶斯隐私保护算法，理论分析和实验结果表明，基于ERRPH和TRR的隐私保护方法具有很好的隐私性、准确性和适用性。邓维斌等[7]基于粗糙集信息观为属性计算加权系数，该方法在英文垃圾邮件过滤中取得了良好的效果。张明卫等[8]基于相关系数对属性赋予权重，并将该方法在中医小儿肺炎病例数据集上做了相关实验研究和分析。陈克非等[9]直接对后验概率中的每个条件概率按类别赋予不同的权值，改进后的朴素贝叶斯分类器取得了较好的分类能力。华锐等[10]直接将特征加权作用到每个条件概率上，一定程度上客服了属性独立性的不足，并将该方法对小样本数据集进行了定量分析。

1 特征加权朴素贝叶斯分类器

贝叶斯分类器属于概率框架下的决策方法，同时它也是一种有监督的学习算法，训练集越完备，其预测效果就越好，泛化能力就会越强。它的基本思想是基于后验概率p(Ci|X)去寻求样本X分类为Ci所产生的期望损失最小。分类公式可写为

1.1 朴素贝叶斯分类器思想

由贝叶斯公式可以看出，类条件概率p(Ci|X)是所有属性上的联合概率，很难从有限的样本中训练估计得出。为避开这一问题，朴素贝叶斯假设各个属性是相互独立的。对于学生样本X={A1,A2,...,An}的分类倾向C={C1,C2,...,Cm}，得到贝叶斯预警分类公式

其中d为属性数目，Aj为X在第 j个属性上的取值，p(Ci)为预警类别i的先验概率；p(X|Ci)为贝叶斯模型的后验概率。对于分类而言，即比较式(2)的取值大小，由于分母相同（即 p(X)相同），只需比较分子，于是得到朴素贝叶斯分类器的表达式

可以看出，朴素贝叶斯分类器的基本思想是通过训练集D来估计类先验概率p(Ci)，并为各属性估计条件概率 p(Aj|Ci)。令DCi为训练集中第Ci样本组成的集合，如果有足够多的独立同分布样本，便可估计出类先验概率

若所研究的属性是离散的，则条件概率p(Aj|Ci)可估计为

其中Dci,Aj表示DCi中在第 j个属性上取值为Aj的样本组成的集合。

由于某些属性携带的信息可能会被训练集中未出现的属性值“抹去”，常用“拉普拉斯修正”来进行“平滑”处理

其中，N表示训练集D中可能出现的类别数，Nj表示第 j个属性可能的取值数。

1.2 特征加权朴素贝叶斯分类器(FWNBC)

朴素贝叶斯是一种理想的概率模型，现实中很难做到各属性相互独立，因此该分类模型具有一定的局限性。本文提出的属性加权算法直接作用到每个分解的条件概率 p(Aj|Ci)上，一定程度上克服了属性独立假设带来的不足。

于是后验概率p(Ci|X)可修改为：

经拉普拉斯校准之后有：

此处，令α=1/p(X),对于分类而言，该值不需要计算。学生数据分为两类，任意数据X有k个属性，X=(A1,A2,...,Ak)，Aj有qj个不同的取值。通过引入该系数，朴素贝叶斯分类器的分类效果得到了明显的改进。

2 实验结果与分析

将某高等院校6个系30个班级共1500名大二学生作为观察对象。选择大二学生的原因是可以根据他们大一和大二的挂科情况来做标记。主要采集以下几类属性数据以及预警类别：

X=(A1,A2,A3,A4,A5)

A1：是否沉迷于网络游戏；

A2：上学期期末成绩；

A3：是否为学生会、社团联合会主力；

A4：有无晚自习习惯；

A5：本学期课程出勤情况，

C=(C1,C2)

C1：表示需要预警，

C2：表示不需要预警，

每种属性的可能取值见表1。

表1 各属性取值

根据大二上学期的学习情况，我们统计观察到以下样本数据，并根据一学期挂科数标记为是否需要预警，若大于等于两科则标记为是，否则标记为否。其中1200组用来进行模型训练，300组数据用于模型测试，部分样本标记信息见表2。

表2 对学生样本进行分类并标记

根据式(10)可知，特征加权朴素贝叶斯分类器需要通过python编程统计的数据有N(Ci),N(D),qj,N(Aj=xj),N(Ci,Aj=xj)，该算法可用图1来描述。

图1 特征加权朴素贝叶斯学情预警分类算法

实验目标是对未加权的朴素贝叶斯、基于规则的方法以及基于平均距离进行聚类的方法进行比较，评价指标包括正确率和计算时间。实验结果如表3所示。

表3 各算法分类准确率和计算时间比较

由实验结果可以看出，加权朴素贝叶斯方法获得了91.7%的正确率和2.3s的计算时间，而朴素贝叶斯方法获得了88.3%的正确率和2.0s的计算时间，可见就正确率而言，加权朴素贝叶斯方法比普通的朴素贝叶斯方法更优，这是因为式(10)赋予了一个权重系数ωj，该系数体现了属性Aj的某一取值在样本中出现的概率，若概率越大，说明该属性对模型的贡献越大。而单纯的朴素贝叶斯视各属性为独立的，在一定程度上忽略了属性间的耦合情况，比如一般沉迷于网络游戏的学生，很大程度上就会旷课，更别谈晚自习了。就计算时间而言，两者只有微小的区别。此外，基于规则的方法和基于平均距离聚类的方法的正确率都要低于加权朴素贝叶斯方法，但是基于规则的方法的运行时间更短，这是由于规则匹配的方法的时间复杂度较前两者更低。

上述实验建模属性是5个，下面通过不同建模属性数目来比较加权前后朴素贝叶斯的分类表现情况。在获取数据时，我们还对三个比较重要属性进行了调查和统计。分别是：A6：大学入学成绩，A7：本学期是否谈恋爱，A8：是否沉迷于网络电视剧。特征加权前后的分类准确率如图2所示。

图2 FWNBC与NBC分类准确性比较

从图2可以看出，当属性数为5时，朴素贝叶斯和特征加权朴素贝叶斯的分类效果同时达到最佳。当属性数较少时，朴素贝叶斯和加权朴素贝叶斯的分类效果差不多，当属性数目为3～6时，特征加权朴素贝叶斯的分类效果明显好于朴素贝叶斯，当属性数目大于6时朴素贝叶斯的分类效果反而比特征加权朴素贝叶斯好，一种可能的原因是由于训练样本集太小，导致分类更倾向于正例，分类效果反而更低了。另一种可能是随着属性数目的增加，属性间的关联耦合加强，该模型没能很好的反应属性间的关联关系，从而导致分类准确率降低。

3 结语

基于加权朴素贝叶斯方法设计并实现了对学情预警的分类，并和朴素贝叶斯、基于规则的方法以及基于平均距离聚类的方法进行了比较，由于对公式中的每个条件概率赋予了一个权重系数，该系数的大小体现了某一属性的重要性，所以分类准确率较后三者要高。高校教务处或专职辅导员可以利用该分类算法提前对所管理的班级学生进行预警，将问题学生扼制在萌芽状态。但是本文所涉及的特征加权朴素贝叶斯方法没有考虑属性间的关联关系，随着属性数目的增加，可能导致分类准确率降低的情况，具有一定的局限性。计算时间也较基于规则的方法长，这对于大数据分析是至关重要的，所以下一步的研究方向将是如何和其他机器学习方法进行融合，考虑部分重点属性间的关联性，在保证准确率的前提下缩短计算时间。