APP下载

基于KFCM改进SVM的学生学业预警系统设计

2019-06-11陶佰睿刘凯达苗凤娟孙同日李敬有

实验室研究与探索 2019年5期
关键词:学业聚类分类

陶佰睿,刘凯达,苗凤娟,孙同日,余 艳,李敬有

(齐齐哈尔大学 a.通信与电子工程学院;b.计算机与控制工程学院,黑龙江 齐齐哈尔 161006)

0 引 言

当前,我国高等教育正进入大众教育阶段,学生人数快速增加,无法按时完成课程和学业的学生也不断增多,对高校学生管理提出新需求。学业预警模式能够较好地适应目前高等教育管理的要求,更是现代化教学管理体系的重要部分。通过实行学业预警机制,学生能够得到学校、家庭的持续关注和引导,也能够提升学生的学习自主性,学生可以通过这种机制来获取自己阶段性学习成果的反馈,并根据反馈结果做出必要的调整与应对,最大可能的降低危机事件的产生[1-3]。学业预警信息涉及学生多种状态信息的收集、处理、分析,工作量庞大,它的准确性、灵敏度和运行效率备受关注,因此,深入地研究预警信息的量化处理方式具有现实意义[4-7]。

近年来很多学者对学业预警以及相关算法进行研究,文献[8]中使用ID3算法对高校学生的学籍信息数据和日常表现数据进行数据挖掘,并以数据挖掘结果建立学生学业预警的决策树,为学生管理提供数据支持。文献[9]中采用K-means算法针对高维小样本癌症基因数据集的有效区分基因子集选择难题,提出K-means改进SVM算法模型提升了分类器的性能。

本文针对高校学业困难学生过程化管理的预警需求,通过学生的入学成绩、学期成绩、一卡通应用数据、早操考勤和学籍处理等状态数据,基于大数据处理思想,提出核函数的模糊均值聚类(Kernelized Fuzzy C-Means,KFCM)改进支持向量机(Support Vector Machine,SVM)数据决策算法,开展学生学业预警决策研究。

2.4 不同施氮量对烤烟内在化学成分的影响 一般认为,我国优质烤烟C3F的适宜总糖含量以20%~26%为宜,还原糖含量以18%~25%为宜,烟碱含量以2.5%为宜,含钾量不得低于2%;在南方烟区含钾量以3%左右最为适宜,总氮含量以2.5%为宜,氯含量以0.4%~0.8%较为理想,施木克值(糖蛋比)在2.0~2.5烟叶质量较好,总氮与烟碱比值以1较为合适;糖碱比在8~10为宜。

当前高校学生管理信息化进程大多停留在信息采集系统的设计与推广层面。通过构建学生信息数据库,学院和学校掌握了大量学生的基本情况,为进一步的学生管理工作奠定了基础。但若进一步拓展管理信息化的外延不难发现,当前高校信息化建设的覆盖度仍然不够广泛,学生管理服务主体层面的信息化建设进程相对滞后。在高校学生管理工作中,社交软件被广泛应用,微信、QQ、飞信等通信工具成为高校信息公告发布的重要途径,效果良好,但软件自身设计的缺陷也为学生管理工作提出新要求。

1 基于SVM的学业预警系统工作原理

SVM是一种新的机器学习方法,具有良好的泛化能力与分类精度,他避免了人工神经网络等方法的网络结构选择、过学习和欠学习以及局部极小等问题,其基本原理如下:不失一般性,假定大小为l的训练样本集{(xi,yi),i=1,2,…,l}包含两个类别,若将xi归为第1类,则令yi=1;若将xi归为第2类,则令yi=-1。xi表示数据点,xi∈Rd(i=1,2,…,N),目标yi表示类别,与每个向量xi关联。寻找最优超平面的问题就转化为解凸二次方程问题,即[10-11]:

(1)

步骤1初始化聚类数目c和迭代停止条件ε∈(0,1),迭代终止次数T。

(2)

本文选取高斯核函数为:

《伊朗制裁法案》第5(a)(7)和(8)条规定,对将伊朗原油承运至其他国家的如下行为人员,总统应对其施加5项或更多制裁:1)对船舶有控制权的受益人且明确知道该船舶被用于此目的;2)拥有、营运、控制或为该船舶提供保险、知道或应当知道该船舶被用于此目的的人。同时,对上述人员隐匿相关石油或石化产品来源的行为(包括允许船舶营运方关闭卫星监控设施、掩盖和隐匿船舶的身份等),可以追加额外制裁措施,包括禁止船舶在美国港口停靠、被列入受制裁者名单等。

依据Largrance对偶理论把式(2)转变为对偶问题,即:

(3)

最优分类超平面如图1所示。

图1 最优平面示意图

将SVM用于处理本文的学生状态数据样本较少、维数较多的非线性数据方面也具有较大的优势。本文将学生状态数据等非线性数据映射到某个高维空间,使它在高维空间中线性可分。即通过非线性变换Φ:Rm→H将低维空间映射到高维空间,使高维空间中的分类器变得更加简单,数据映射后如图2所示。

图2 学生状态数据由原始空间向高维特征空间映射

不加权的SVM分类平面偏向于样本少的一侧,对于分类测试虽然样本多的一侧能够很好的识别,但是样本少的一侧却错误识别的几率较大。而采用了加权的SVM,其分类平面根据样本的数据被纠正,适当的进行偏移,取得了相对普通SVM更佳的效果。分类平面纠正的结果如图4所示。

(4)

映射到高维特征空间后对应求解问题为:

(5)

3)平台应用。平台应用主要是指建立业务平台、身份管理平台、数据统一等平台,构建统一的校园支撑服务平台。通过多样化的软件应用,为用户提供统一的开发、运行和应用环境,满足用户丰富的使用需求。

1.2.2 SW480结肠癌细胞株慢病毒过表达miR-454-3p将SW480结肠癌细胞株(中科院上海生物细胞研究所)接种于96孔细胞培养板中,置于37℃培养箱中培养24 h,当细胞密度达约50%~70%时进行转染操作,参照Lipofectamine2000试剂(Invitrogen)说明书将 miR-454-3p mimics及阴性对照转染SW480结肠癌细胞株,荧光显微镜下观察细胞状态及转染效率。以初步确定miR-454-3p的表达情况。

(6)

于是可以定义每个样本的权重为:

(7)

S+ξi≥0,i=1,2,…,n+

2 KFCM数据聚类

KFCM通过非线性映射Φ:Χ→F将输入空间Χ变换至高维特征空间F,即将本文的学生状态数据(学生的入学成绩、学期成绩、一卡通应用数据、早操考勤和学籍处理)样本xi(i=1,2,…,n)映射到Φ(xi)进行聚类[12-13]。其聚类的目标函数为:

(8)

式中:vj(j=1,1…,c)为输入空间聚类中心,c为类别数;uji(i=1,2,…,n,j=1,2,…,c)为第i个样本对第j个类别的隶属度;m为加权指数。定义核函数K(x,y)=Φ(x)TΦ(y),故其和空间的欧式距离为:

预算方案制定完成后就是预算方案的执行,但是,在大部分企业中,其在执行预算编制内容时,经常受到各类主观、客观因素的影响而导致预算执行计划更改。此类擅自调整预算计划行为的出现,极大程度上造成了财务资金运行结果与预算方案制定结果之间的大相径庭。另一方面,在预算执行期间,少部分企业由于并未制定有关于预算管理方面的管理体制,出现了资金预期编制与执行效果不符的情况,此种问题出现主要是由于缺少对预算过程的监督环节和预算结果的考核评价环节,最终造成企业预算管理质量提升艰难。

(9)

KFCM的准则是求目标函数的极小值。根据Lagrange乘子寻优法,将式(9)代入式(8)可以求得隶属度即目标函数:

I am sure I should be a fool to change such a situation as mine.Fortune I do not want employment I do not want;consequence I do not want:I believe few married women are half as much mistress of their husband’s house,as I am of Hartfield.(67)

uji=

(10)

(11)

式中,αi>0(i=1,2,…,l)为Largrance系数。

K(x,y)=exp-x-y2/(2σ)2

(12)

式中,σ为高斯核函数。

3 基于KFCM改进SVM的算法设计

本文选取S大学学生状态数据,经过对数据进行分析发现存在学业问题的学生数是少数,是典型的不平衡分类问题。不平衡分类问题即在二分类问题中,其中一类的样本数目远大于另一类的样本数目,即类与类之间的样本不平衡。为解决SVM在训练时会产生分类平面易偏向少类样本从而造成无法正确分类的情况,本文设计了一种结合KFCM以及SVM的学业预警算法流程。利用KFCM算法对原始数据样本进行聚类得到聚类中心vj和隶属度uji,然后根据样本点到聚类中心vj的距离作为权重对SVM的惩罚项C进行加权,具体流程图如图3。

算法具体的步骤如下:

式中,w和b是超平面方程f(x)=wx+b的系数。构造Largrance函数:

图3 基于KFCM改进SVM的算法流程图

步骤2选择核函数K(x,y)以及其参数。

步骤3初始化聚类中心vj(j=1,2,…,c)。

步骤4按式(10)计算每个样本在特征空间的隶属度函数uji(i=1,2,…,n,j=1,2,…,c)。

步骤6判断终止条件,符合则算法停止,否则转到步骤5。

4.1 冻害前采取防御措施的,都有一定效果调查发现,冻前采取了灌水(增加果园空气湿度)、熏烟等措施的,比周围未采取措施的,防冻效果明显,坐果率前者比后者高20%。岐山募化王林安苹果园冻前树体喷布防冻液(优花优果等药剂),我们调查时同村人说:“老王不知道喷了什么药,他有苹果,我们没喷就没苹果。”

步骤7假设数据样本中正样本(少类样本)的个数为Num+,负样本(多类样本)的个数为Num-,则可以定义正负样本的比例为:

R=Num+/Num-

(13)

从而最终的最优分类函数为:

(14)

步骤8将上步得到的权重对SVM的惩罚项C进行加权,加权后为:

(15)

yi(ωTxi+b)≥1-S+ξi,

相比之下,国际上一些知名公司会积极进行对外交流,在交流中抓住各种有利机会,对碳信息进行全面分析,最大程度地挖掘碳信息所反映的企业经营问题,发挥碳会计披露的指导作用。这也从侧面反映出我国大多数企业缺乏环保意识,对碳会计信息披露对企业持续发展的认识不够充分。

当样本类别分布均衡时,SVM能够取得较高的分类精度,然而应用于不平衡分类数据集如本文的学生状态数据时,其分类性能会大大降低,故本文通过KFCM改进SVM的惩罚项C来提高SVM对数据分类的准确性。

yj(ωTxj+b)≥1-S-ξj,

S-ξj≥0,i=1,2,…,n-

转化为对偶问题可以写为:

(16)

式中,Si满足

(17)

当原始状态数据通过非线性映射到高维特征空间时,需要在高维特征空间中计算点积,从而导致计算量增加。这里采用满足Mercer条件的核函数K(xi,xj)来代替点积运算,可以减少计算量与复杂度:

图4 基于加权SVM的效果图

4 实验仿真结果与分析

本文实验对象选择的是某专业学生2014~2018年大学4年的学生入学成绩、学期成绩、一卡通应用数据、早操考勤和学籍处理等状态数据。共65名学生,其中有3名学生(少类样本)是受到处分且不能顺利毕业的同学。本文选取其中的45名学生的数据进行算法的训练建模,剩下的20名进行测试。将顺利毕业的学生的标签设为1,将受到处分且没有顺利毕业的学生标签设为2。共进行10次试验。

在进行KFCM改进SVM算法中,聚类数目c取2,加权指数m取2,核函数选择高斯核函数,并去σ=25,初始聚类中心vj取为0~1之间的随机数,算法停止条件为相邻迭代步数间的隶属度值的差的绝对值小于0.005或者迭代次数超过100。

本文进行了普通的SVM、BP神经网络、GA-SVM和基于加权的SVM在学生学业预警数据上的测试。这些算法其中一次的聚类预测结果如图5~8所示。

3.2 被动训练对婴儿智力及运动发育的影响及机制 小儿神经系统在胚胎时期就开始发育了,对于新生儿出生时窒息时间及状况,会造成不同程度的脑损伤,且目前为止没有有效的药物治疗。本研究对出生窒息患儿的研究显示,科学合理的被动训练对0~6个月窒息患儿的智力发育及运动发育都是有利的。国外已有报道表明,早期干预包括科学的被动训练可以改善因环境及生物因素所引起的儿童智力落后[6]。

图5 BP神经网络测试结果图6 GA-SVM测试结果图7 SVM预测结果图8 加权SVM预测结果

图5~8中的纵坐标1与2分别代表能顺利毕业的学生与不能顺利毕业的学生。其中横坐标为学生个数,本次实验共选择20名学生进行测试。

针对本文的不平衡分类问题,以分类准确度作为分类器性能评价标准是不恰当的,例如,在垃圾邮件过滤系统中,常规邮件(看作多类样本)的数目N0将远大于垃圾邮件(看作少类样本)的数目N1,例如N0∶N1=99∶1。此时,如果分类器将样本全部分成常规邮件,那么它将得到99%的准确率。但这样的准确率是毫无意义的。所以,在本文中对分类器的分类性能评价选取了两个,一个是精度(accuracy,ACC),另一个是Kubat等提出了一种新的度量指标——G-mean[14-15]。对于分类器的分类结果,其性能通常可由混淆矩阵概括,见表2。

表2 混淆矩阵

其中,精度的计算式为:

(18)

G-mean的计算式为:

SE=TP/(TP+FN)

(19)

SP=TN/(TN+FP)

除此之外,对于零工经济的法律监管也较为混乱。现有法律并没有明确规定企业平台所需承担的责任和义务,也没有对于劳动服务供给者的资质提出明确要求。由于监管政策不够明确,导致相关行业乱象重生,甚至出现了严重的刑事案件,例如郑州空姐遇害事件、温州乐清女大学生遇害事件。

(20)

(21)

这些算法的平均聚类预测结果见表3。

(1)中间品进口的国际技术溢出对东、中、西部制造业技术创新能力影响的差别较大,其中东部技术创新能力显著性水平最低,主要原因是对外贸易是东部经济收入的重要源头,而技术是以加工贸易为核心,该种贸易方式使得东部地区需要更多的进口中间品。因此,中间品进口的国际溢出对技术创新能力的提升并不显著。中间品的国际技术溢出对提高中部地区技术创新能力的显著性不够明显,因此应通过研发资本投入和吸引外资等技术沟通措施,实现中部技术创新能力以及中间品进口的国际技术溢出能力。而相对于东部以及中部的中间品进口产生的国际技术溢出效应,西部的技术创新能力呈现明显提升。

表3 结果对比

结果显示,本文基于KFCM改进的加权SVM的预测结果优于其它的机器学习算法,其G-mean正确率达到94%。它达到这么高的原因是测试集里面只有两个是少类样本,而该分类器不仅把少类样本全部正确分类,而且多类样本也仅有一个分类错误,这也从侧面证实了该算法能明显改善普通的机器学习算法在分类时容易使分类结果偏向多类样本情况。

综上,运费险的确会在某种程度上影响着线上消费者的购买和退货决策。当商家主动提供运费险时,消费者更倾向于在该店铺购买产品而退货率并不会因此大大提升;当商家不提供运费险时,消费者会经过考虑产品价格、退货率、运费险价格、惰性等多种因素后再进行是否购买运费险的决策。

5 结 语

本研究可以为高校建立预警模型提供有效的技术支持。首先,学生可以通过学业预警系统对自己的学业情况进行评估,并根据预测的结果来进行调整,以期顺利毕业。同时,预警系统也可以为教师或教学管理者提供学生学业状态数据,便于他们精准帮扶学业困难学生尽力完成自己的学业。

猜你喜欢

学业聚类分类
艰苦的学业
分类算一算
音乐提升学生学业表现
树起学业担当之心
基于K-means聚类的车-地无线通信场强研究
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现