高校学生工作数据挖掘的研究和实践

2020-10-14刘科生倪义坤

北京航空航天大学学报（社会科学版） 2020年5期

刘科生，倪义坤

(1. 北京航空航天大学经济管理学院，北京 100083；2. 北京航空航天大学学生工作部学生大数据中心，北京 100083)

一、引言

当前，中国高等教育正处于内涵发展、质量提升、改革攻坚的关键时期和全面提高人才培养能力、建设高等教育强国的关键阶段。为了全面提高人才培养能力，加快形成高水平人才培养体系，培养德、智、体、美、劳全面发展的社会主义建设者和接班人，围绕教育现代化目标和当代大学生特点，需要大力推动互联网、大数据、人工智能、虚拟现实等现代技术在教学和管理中的应用，以现代信息技术推动高等教育质量提升的“变轨超车”[1]。高校学生工作数据属于教育数据范畴，是高校开展思想道德教育、文化知识教育、社会实践教育的网络化、数字化和高校人才培养科学化、精准化的基础性资源。运用数据挖掘等技术对高校学生工作数据进行分析研究，可为学校科学决策提供参考、为学生全面发展提供指导，是思想政治工作传统优势同信息技术高度融合、现代信息技术与教育教学深度融合的重要举措，对推动形成“互联网+高等教育”的新形态具有重要的理论价值和实践意义。

文章通过系统总结高校学生工作数据挖掘的内涵与方法，分析国内外研究现状和实践进展及该领域当前存在的问题，提出中国高校学生工作数据挖掘的原则和框架。

二、高校学生工作数据挖掘的技术方法

(一)概述

高校学生工作数据挖掘，就是从大学生在校期间，在校园内大量的、各方面的、多种类型的数据中，揭示出学校和学生本人未发现的但具有理论和实践价值的隐含信息的过程。这些数据原则上由学校的相关部门进行采集，统一存储在学校的中心数据库。围绕学生工作研究和实践中的具体问题，在数据预处理后进行数据挖掘分析，对研究结果进行展现和解释。

(二)主要方法

1.分类

分类(Classification)是通过分析训练数据集中的数据，锁定被分类对象包含于哪一个事先定义好的目标类。分类的目标是通过分类算法进行循环迭代式的训练，得出一个合理的分类模型，新的未知类别的数据使用该模型便可以得出具体属于哪一类别。因此，分类算法不但可以用于对数据的分类，还可以用于预测。例如，高校学生基于某方面的行为数据可以分为多种类型，应用分类算法可以对某学生属于其中哪种类型进行归类或预测。分类算法种类繁多，主要有朴素贝叶斯、决策树、回归分析、支持向量机等。其中，决策树作为数据挖掘中分类算法的一个分支，起源于概念学习系统(CLS)，它致力于从一组无序的、无规则的实例中推导出以树形结构表示的分类规则，常用的方法有ID3、C4.5、CART等。

2.聚类

聚类分析(Cluster Analysis)仅依据在数据里查找到的描写样本和对应的关系信息，把数据样本进行分类。在机器学习中，聚类也称无监督学习。聚类算法是对样本数据本身进行分类，而不是以样本数据为基础去分类新数据。聚类的类别划分标准是数据间的相似程度，选择的算法不同，划分的度量也不同，最终聚类的结果也会不同。但聚类的最终目标是要保证同类别的样本具有较高的相似度，不同类别的样本具有较低的相似度。例如，综合高校学生几个方面的行为数据，运用聚类算法可以将高校学生划分为多个群体，进而分析每个群体属于何种类型。K-means 聚类算法、层次聚类算法、SOM 聚类算法、FCM 聚类算法是较为常用的四种算法。

3.关联分析

关联分析(Association Analysis)是在庞大的数据中找到事物与事物之间的相关性联系，并用一定的规则表现出来。它的目标是挖掘出潜藏在数据之间的互相关系，为分类设计、交叉推荐和用户行为习惯分析等许多决策过程提供帮助。例如，通过关联规则可以挖掘出高校学生在校的各方面行为与学习成绩数据之间的关系，从而引导学生通过调整某些行为以促进其学习成绩的提高，也可以寻找出高校学生登陆校园网浏览网页的内容特点，从而提升学生上网时对其进行内容推荐的转化率。常见的关联规则算法有Apriori算法、FP-growth算法、抽样算法等。

4.异常检测

对于小学阶段的学生来说，儿童哲学绘本可以给他们带来启迪，学生也喜爱绘本。因此，教师也要重视起学生绘本的阅读，将绘本作为学生课外阅读的最主要内容，激发学生对于课外阅读的兴趣，使学生积极主动地进行阅读，养成良好的阅读习惯，从而促进学生核心素养的发展。

异常检测(Anomaly Detection)一般是用来找寻某一特性明显且与其他数据存在差异的观测值。这样的观测值称为异常点(Anomaly)或离群点(Outlier)。异常检测算法是用于清除噪声数据，避免错误的将正常的对象标记成离群点。但在高校学生工作数据挖掘的实践应用中，要合理区分数据异常和人群异常。异常点的检测，一方面有助于高校发现行为异常的学生，及时进行干预；另一方面也有助于高校更加精准地了解学生特点，有效开展教育。常见的异常检测算法有并行异常检测算法(MR-DLOF)，基于统计、基于密度的异常检测算法以及面向高维数据的异常检测算法等[3]。

(三)常见工具

随着数据挖掘算法的发展，许多经典的数据算法工具包应运而生，各大数据库公司都把数据挖掘模块应用到自己的产品中去。基于这些经典算法和常用工具，很多为高校学生工作提供智慧解决方案的公司都在陆续推出专门针对高校学生工作特点的优化算法，以期更好地解决高校学生工作场景下的实际问题。

常见的工具包括SQL Server Analysis Services、SPSS Clementine、WEKA(Waikato Environment for Knowledge Analysis)。SQL Server Analysis Services由Microsoft 公司研发，包含多个算法，可以使用许多行业统一的数据挖掘算法来设计、创立和可视化数据挖掘模型，而且用户也可以创建自己的数据挖掘算法。SPSS Clementine由著名的 SPSS 公司提供，是一款统计型的数据挖掘软件，拥有很多面向对象的可供扩展模块接口。WEKA由新西兰的怀卡托大学(University of Waikato)研发，是一款基于Java的数据挖掘软件，不仅集成了许多可以完成数据挖掘任务的主要算法，而且还给用户提供了可二次开发的接口并且可以让挖掘的结果以可视化的方式展现。

三、国内外研究现状和实践进展

(一)概述

随着教育信息化的发展，教育数据类别和数据规模正以爆炸的速度增长，如何从海量的数据中挖掘出对学习者有用的信息，帮助学习者提高学习效率，促使教育数据挖掘研究成为热点。国际教育数据挖掘委员会将教育数据挖掘(Educational Data Mining, EDM)定义为使用与时俱进的方法来分析、探索来源于教育过程特定类型数据集的一门新兴学科，其目的是更好地理解、认识学生以及学生在学习过程中产生的数据集[4]。总体而言，教育数据挖掘属于跨学科领域的研究，研究过程中往往将机器学习、统计学、数据挖掘方法、心理学以及推荐系统的方法和技术应用于不同的教育数据集，以解决教育领域的某些问题，如图2所示。

高校学生工作数据挖掘，既具有教育数据挖掘在方法和技术方面的共性特征，又因其与不同国家的高等教育发展密切相关而在分析和应用方面具有不同的阶段特征和社会特征。中国的高校是中国特色社会主义高校，坚持把立德树人作为中心环节，把思想政治工作贯穿教育教学全过程[5]。中国高校学生工作数据挖掘的研究和实践方向一定是与中国高等教育的发展同向同行。所以，在方法和技术方面，国内外的研究和实践均会致力于丰富数据、优化算法；在分析和应用方面，国外主要针对大学生的在线学习行为等数据，聚焦了解学习特点、优化学习行为，而国内会基于大学生在校各方面的数据，致力于全面掌握学生的特点，进一步探求学生的思想状况和成长规律，从而更有针对性、更有效地开展精准思政。

(二)国外研究现状和实践进展

从2005年起，美国人工智能协会(AAAI)、智能导师系统(ITS)等国际会议多次开展了以“教育数据挖掘”为主题的研讨会。2008年，来自美国、德国、加拿大、澳大利亚、荷兰等国的研究人员成立了国际教育数据挖掘工作组，并在加拿大召开了第一届教育数据挖掘国际学术会议。2012年美国教育部教育技术办公室发布了一份《通过教育数据挖掘和学习分析促进教与学》的研究报告，对美国国内教育数据挖掘和学习分析的研究及应用情况进行了总结，并提出了进一步发展的意见建议。2013年2月，《2013NMC 地平线报告》中有预见性地指出“大数据和学习分析技术”将在未来2～3年成为主流技术。

研究方面，随着哈佛大学、斯坦福大学、耶鲁大学等世界一流高校相继启动教育数据挖掘相关研究计划，国外学者围绕高校学生的学习动机、风格、态度和在线学习行为等主题开展了丰富的研究，构成了国外高校学生工作数据挖掘研究的主要内容。例如，使用聚类分析算法对Web服务器日志数据进行了研究，分析了学生的在线学习行为，并对利用聚类分析作为教育数据挖掘技术的优势和局限性进行探讨；使用Apriori关联规则算法和K-means聚类分析算法对学生的学术成果数据进行了研究，分析考试成绩、考勤、实践环节等因素对学术成果的影响；使用K-means聚类分析算法分析了学生登录或退出、座位选择等4 096条记录的电子日志，研究教室或实验室环境中学生的座位选择及其对评估的影响；使用K-means、Farthest First、EM聚类算法以及统计t检验等方法，分析研究了在线学习系统中学生的学习档案；使用人工神经网络(ANN)、基于K-means聚类的最远优先方法和决策树作为分类方法，评估本科生的学业成绩[6-10]。

实践方面，国外很多高校已经广泛将数据挖掘技术应用于招生录取、专业匹配、就业指导等方面。例如，美国普渡大学将基于教育数据挖掘的在线学习预警研究成功应用于实践，建设了课程警示系统平台，及时给学生发送鼓励或警告；乔治亚州立大学基于现在的学生已经修过的课程的成绩，以及以前学生的课程成绩等，分析预测学生最有可能取得成功的主修专业[11]。

(三)国内研究现状和实践进展

2014年，电子科技大学率先成立了教育大数据研究所，就数据一体化平台、学生画像系统等开展多项研究。2015年，中国统计信息服务中心和曲阜师范大学共同成立了中国教育大数据研究院，联合十余所高校和教育研究机构发起了“中国教育大数据发展促进计划”，提出了推动中国教育大数据发展的路线图。2017年1月，国务院印发《国家教育事业发展“十三五”规划》，明确提出“加快教育大数据建设与开放共享”与“推动各级教育行政部门和学校开展深度数据挖掘和分析”以及“鼓励学校利用大数据技术开展对教育教学活动和学生行为数据的收集、分析和反馈”。2017年3月，华中师范大学获批成立教育大数据应用技术国家工程实验室，成为中国首个面向教育行业、专门从事教育大数据研究和应用创新的国家工程实验室。2017年10月，北京航空航天大学成立学生大数据中心，聚焦思想政治教育领域前沿问题研究，致力于准确把握学生思想、行为和心理，为学生自我认知提供参考、为学校科学决策提供支撑。2017年11月，南昌大学教育大数据研究中心成立，计划在教育信息化、舆情追踪、学业诊断及评价改革、学科教学质量监控、学生综合素质评价、跨学科人才培养等方面开展具体工作。

随着国家对大数据战略重视程度的提升，针对教育领域中的各类问题，中国学者陆续应用数据挖掘技术开始了多方面的研究。例如，使用关联规则和聚类分析算法对学生网络学习行为数据进行了研究，提出网络学习过程监管的教育数据挖掘模型；使用K-means聚类分析算法对学生上网行为与英语四级通过率之间的关系进行了研究，发现学生英语四级通过率与上网行为中的下载流量、在线时长、使用费用等有明显关联；使用主成分法分析了学生在校上网行为与学习成绩之间的相关性，研究了大学生校园网络行为特征与规律；使用J48决策树算法对不同风格网络学习者的网络学习行为特征进行了研究，构建了学习风格模型[12-15]。

目前，中国高校学生工作中应用数据挖掘技术主要集中在画像分析、隐性资助、学业预警等方面。例如，电子科技大学通过分析学生食堂吃饭、宿舍洗澡、教学楼打水和进出图书馆的行为数据，探求学生校园生活的规律性，预测学业表现、识别孤独人群；北京航空航天大学每年绘制本科毕业生画像，刻画学生四年在校行为的特点和规律；西安交通大学采集分析教学过程相关的各类数据，优化教与学；中国科学技术大学通过挖掘一卡通消费数据，识别经济困难学生，结合线下学生表现进行综合研判后，直接发放经济补助。

(四)存在的问题

综上可知，当前中国高校学生工作数据挖掘主要存在以下三个方面的突出问题：

一是数据量、数据质量无法满足理论研究和实践应用的需要。一方面，体现在已有各类业务系统的数据集成和联动不足，并且各系统在设计之初缺乏学校顶层的统筹设计，导致现有可供数据挖掘的学生在校期间相关信息数量标准不一、质量低；另一方面，为了更加科学全面地掌握学生状态、把握学生特点，需要采集学生更多方面的大量数据信息，但现有的软硬件条件尚无法满足。这就决定了基于现有数据进行挖掘分析的学生工作应用的科学性和可信度相对有限。

二是缺少理论和实践紧密结合、高水平、专业化的人才队伍。目前开展学生工作数据挖掘研究的主力仍是具有各种专业背景的辅导员队伍，数据挖掘相关学科的专业基础薄弱、技术能力有限，且以定性分析居多、定量研究相对较少，定量研究中又以基于主观调查的数据居多、基于客观行为的数据较少。中国高校从事数据挖掘研究的学者聚焦在学生工作领域的相对较少，能够通过优化算法有效解决学生工作中各类问题的就更显不足。

三是“精准思政”尚有若干理论和实践的重点难点问题亟待破题。精准思政要求高校，一方面对学校人才培养的模式、体系和学生成长成才的规律、特点有着科学的把握；另一方面对学生的思想心理、行为状态、关系网络等有着准确的感知。学生工作数据挖掘的理论和实践结合性极强，但目前仅仅停留在学生部分行为和状态的相关分析和预测上，能够上升到思想认知层面，有效指导“精准思政”实践的标志性成果还非常少。

四、中国高校学生工作数据挖掘的原则与框架

(一)总体原则

高校学生工作数据挖掘的理论研究和实践应用联系紧密、相互促进。围绕学生工作数据的伦理安全、学生思想心理的认知模式、学生综合画像的科学维度和学生行为分析的模型算法四大方向，通过全面系统地收集学生工作数据，科学地进行预处理、挖掘分析和展示应用，集成于一个能够全面感知学生综合状态、及时管控学生预警情况、有效指导学生全面发展的智能平台。

为此，中国高校学生工作数据挖掘必须遵循以下三个原则：一是必须高度重视智慧校园建设质量，数据量要尽可能大、数据质量要尽可能高；二是必须深刻把握精准思政领域问题，数据挖掘的结果要么能够在理论层面深化认识、要么能够在实践层面解决痛点；三是必须持续优化数据挖掘模型算法，模型的针对性要更强、算法的精准度要更高，具体框架如图3所示。

(二)数据类别和来源

高校学生工作数据挖掘的前提是要有数据标准和数据字典，既要足够丰富，能够构成完整的学生工作数据体系，又要与学校中心数据库的标准和字典衔接一致，以进行数据交换。

根据学生全大学周期的行为和状态，高校学生工作数据主要可以分为基本信息、经济类、学业类、成长类、生活类等五类，包括的主要内容和相应的校内来源如表1所示。

表1 中国高校学生工作数据类别及内容

(三)理论模型

学生的思想和心理通过行为呈现于现实世界中，以数据的形式存储于信息系统中。学生工作数据挖掘就是要通过基于学生行为的逆运算，达到认知和影响学生思想和心理的目的。基于服务高等教育人才培养的目标导向和聚焦“精准思政”突出痛点的问题导向，中国高校学生工作数据挖掘应具备理论模型为

Y=f(X1,X2,…,Xn)

(1)

(2)

式中：Y为所研究对象的具体问题，如学生的身心状况、学生的学业水平等；X1,X2,…,Xn为与问题Y相关的若干因素，如课程成绩、竞赛成绩、实践情况等与学生的学业水平有关的因素；f为问题Y与若干因素之间关系的模型算法，如某类学生的画像特征统计、学生某方面行为与学业水平的关系规律等；a1,a2,…,am为与因素X1相关的数据内容字段，如数学课学分、数学课成绩、物理课学分、物理课成绩等与课程成绩有关的数据字段；b1,b2,…,bm为与因素X2相关的数据内容字段，如竞赛内容、竞赛时间、竞赛结果、个人参赛还是团队参赛等与竞赛成绩有关的数据字段；A，B，…为因素X与若干数据内容字段之间的逻辑关系，如求和、加权平均等。

最后，值得注意的是，学生工作数据挖掘势必将为高校人才培养和大学生思想政治教育提供重要的支撑和参考，但替代不了思想政治工作在面对面交流、共同开展校园活动等传统方式上的重要作用。所以，要辩证看待、合理使用学生工作数据挖掘的结果，让数据挖掘成为学生工作的高效“催化剂”、新型“助燃剂”。