APP下载

基于贝叶斯网络模型的统计学课程体系研究

2023-05-30刘杰赵家杨胡太忠杨锋

大学教育 2023年3期
关键词:统计学

刘杰 赵家杨 胡太忠 杨锋

[摘 要] 课程体系建设是保障高等教育人才培养质量的基础工作之一,一直是教育界广泛关注的热点问题。为了更加科学地优化统计学本科课程体系,文章基于Z校统计学专业本科生的课程成绩数据,借助贝叶斯网络模型对数据进行分析,得到统计学课程体系的网络结构,对比分析Z校统计学培养方案所列的课程体系,提出统计学课程体系的构建原则,并给出进一步优化课程体系的参考意见。

[关键词]统计学;本科课程体系;贝叶斯网络模型

[中图分类号] G642.3 [文献标识码] A [文章编号] 2095-3437(2023)03-0031-04

引言

课程体系是指诸多课程相互联系而构成的网络整体[1],最早可追溯至19世纪的德国,主要以学分制为教学管理制度。课程体系研究主要关注两方面的内容,一是实现人才培养目标需要考虑哪些教学内容或课程,二是如何科学合理地设置和衔接这些课程。课程体系的建设是人才培养质量的保证,也是社会经济发展的基石。本文以统计学专业为例,探讨如何在已有课程体系的基础上优化课程设置。

统计学是研究如何有效地收集、整理和分析数据,并为决策提供科学依据的一门学科,也是与其他科技领域交叉较强的学科之一,其应用基本涵盖了工农业生产、经济管理、自然科学研究等领域。统计学专业的人才培养定位是要求学生掌握扎实的数理基础,深入了解概率统计专业的理论和方法,同时能娴熟地利用计算机分析数据,既能从事科研教学工作,又能在企事业单位从事统计数据分析等应用开发工作。随着近十年大数据技术的快速发展,我国对统计学人才的需求更是呈现“井喷”式增长,这就迫切需要高校构建“深基础、宽领域、高视野”的统计学课程体系[2]。

2011年,国务院学位委员会和教育部批准印发了《学位授予和人才培养学科目录(2011)》,统计学由此上升为一级学科。在此背景下,国内高校根据自身特色,参考世界知名高校成熟的统计学培养方案[3],设置了符合自身发展特点的课程体系,但仍需在教学过程中不断地对其进行探索和优化。近年来,学界在建立完善统计学课程体系的研究中取得了一系列卓越的成果。例如,利用多元统计分析方法,从成绩分析的角度建立课程体系的量化评价模式[4];强化实践教学内容、探索实践教学新模式对统计学课程体系的完善具有的指导意义[5]。然而,学界关于统计学课程体系的设置存在以下两点共性问题[6-7]。一是研究内容以定性分析为主,主要通过梳理国内外高校统计学课程体系设置的历史和现状,结合专家经验定性给出建议,但借助定量方法来讨论的并不多见。二是多从教学的角度考虑课程体系的设置,较少从学生学习效果的角度来衡量课程体系的合理性。

针对上述问题,本研究以“双一流”高校Z校为例,对统计学课程体系进行研究。该校统计学是国家重点学科,其课程体系在国内高校中具有较强的示范性,与同属第4轮学科专业评估A类的多个高校存在诸多共同特点,均以培养学生具备扎实的数理基础、牢固掌握专业技能知识以及具备良好编程能力为目标,分多类课程进行授课,课程先后衔接关系也大体一致。

本研究基于Z校统计学专业本科生的课程成绩数据,借助贝叶斯网络模型对数据进行分析,得到课程影响关系的网络拓扑结构,即课程体系结构。将其与Z校统计学培养方案中的课程体系进行对比,发现Z校原有统计学课程设置具有一定的合理性,但也存在一些有待改进的问题。本研究结合高校课程体系的构建原则,为进一步完善统计学课程体系的设置提出一些参考建议。

一、研究设计

(一) 数据来源

课程成绩数据来自Z校2010—2020学年统计学专业521名本科生的16门课程成绩。这些课程包含了通修课、学科群基础课、专业核心课和专业方向课四类,各类课程间存在层次依赖关系。Z校统计学人才培养方案结合教学培养经验、课程内容以及课程类别间的衔接关系,形成了统计学课程体系网络,具体的课程名称、课程类别以及课程间的影响关系如图1所示,其中箭头方向表示课程间的影响方向。

为保证数据分析的可靠性和准确性,项目组对原始数据进行了异常值处理。考虑到部分学生存在缺考、重修刷分以及个性化选课等情况,数据存在缺失值、重复值以及噪声值,项目组在剔除这些异常值之后,整理得到16门课程的样本数据。

(二)研究方法

贝叶斯网络是目前不确定知识表达和推理领域最有效的机器学习模型之一,它能够用图论的形式直观地描述数据中的影响关系。贝叶斯网络中每一个节点代表一个随机变量,节点之间的影响关系通过有向边来连接,有向边的箭头所指方向为节点之间影响关系的方向,相连节点之间的影响程度通过条件概率分布来呈现。设贝叶斯网络中的节点集为[V={V1,V2, …, Vn}],[E]是由[V]中不同节点的有序对构成的集合,其中的元素称为有向边。[G=V, E]为节点之间影响关系的有向无环图,又称为贝叶斯网络结构;[Θ={θ1, θ2,…, θn}]为每个节点在其父节点集下的条件概率表,又称为贝叶斯网络参数。贝叶斯网络[N]可表示为二元组[N=(G,Θ)]。在贝叶斯课程网络中,可将课程视为节点,课程之间的影响关系可用有向边来呈现。

确定课程网络的结构即确定课程网络的有向无环图[G],贝叶斯网络模型中现有的结构学习算法主要有三类[8],第一类是基于约束的算法,该类方法通过判断节点之间的条件独立性来确定是否有边以及边的方向,代表性的有MMPC(Max-Min Parents and Children)算法等,该类算法在数据量足够多时,才能得到较为可信的网络结构;第二类是基于评分的算法,該类算法采用常见的AIC、BIC准则对网络结构进行评分,评分最高的即为最后得到的网络结构,代表性的有爬山算法等,该类算法在节点数较多时,会极大地增加计算时间;第三类是混合算法,该类算法在结合上述两类算法的同时,克服了它们的缺点,是当前贝叶斯网络模型结构学习的主流算法,代表性的有MMHC(Max-Min Hill-Climbing)算法等。MMHC算法的核心思想是先利用MMPC算法得到贝叶斯网络中每个节点的候选父子节点集,从而确定初始的贝叶斯网络结构,然后基于初始的网络结构,利用爬山算法确定节点间的边及方向。

二、实证分析

为探究课程之间的影响关系,本研究基于成绩数据分析了16门课程成绩的分布特点、相关性以及网络结构。在描述性统计分析中,重点关注课程成绩的分布特点,为借助贝叶斯网络模型确定课程体系的网络结构做铺垫;在相关性分析中,发现课程成绩之间存在紧密联系,可基于此使用网络结构来描述课程之间的影响关系;最后基于描述性統计分析和相关性分析的结果,借助贝叶斯网络分析中的MMHC算法确定16门课程的网络结构。

(一) 课程成绩分布特征

结合统计量深入分析成绩数据的分布特点,考虑到数学分析、概率论、随机过程和非参数统计这4门课程成绩的均值、标准差、中位数、偏度和峰度,同时,4门课程成绩与其他课程成绩类似,故本研究以这4门课程为例。这些统计量能在一定程度上体现原有课程体系下的教学质量,包括学生学习效果的差异,能反映原有课程体系的合理性。

课程成绩的描述性统计量如表1所示。首先,这4门课程的成绩均值和中位数呈递减趋势,表明学生在学完通修课进入后续类别的课程学习阶段时,总体学习效果有所下降;其次,4门课程成绩的标准差呈递增趋势,说明学生在这个过程中学习效果更容易出现差异和分化;最后,课程成绩的偏度均为负数,峰度均显著偏离3,其中偏度呈现的是分布形状的对称性,峰度呈现的则是分布形态的陡峭程度,正态分布的偏度和峰度分别为0和3,因此进一步验证了这些课程的成绩数据不服从正态分布。

(二) 课程成绩间相关性分析

对16门课程的成绩进行相关性分析是为了进一步探究课程之间的影响关系。简单相关分析可以衡量不同课程的成绩之间是否存在线性相关关系。本研究用饼图和单元格的形式展示了16门课程成绩的相关系数矩阵,如图2所示,其中黑色表示正相关,且颜色越深,扇形面积越大,正相关程度就越大。例如,概率论和数理统计之间的饼图颜色明显深于概率论和非参数统计之间的饼图颜色,在现实教学中,概率论和数理统计之间确实存在更加紧密的相关关系。另外由图2可知,四类课程的成绩之间呈不同程度的正相关,相邻类课程之间的相关性明显,并且每一类课程成绩之间的相关性较为显著,由此说明可以用网络结构来呈现课程之间的影响关系。

(三) 贝叶斯网络模型分析

利用贝叶斯网络模型从成绩分析的角度来探究课程之间的影响关系。由于16门课程的成绩不是正态分布,不能直接使用连续型的贝叶斯网络模型进行分析,需要对每一门课程的成绩进行离散化处理[9]。具体为将每一门课程的成绩按照4个成绩分位数分成5个区间[Ij=[(j-1)/5分位数, j/5分位数], j=1,…,5],分别对应5个等级。由此将连续型的成绩数据转化成5值型的离散数据。接着利用MMHC算法分析课程之间的网络影响关系,得到基于成绩分析的统计学课程体系(贝叶斯网络图),如图3所示。

对比Z校原有的统计学课程体系图(经验图)和基于成绩分析的统计学课程体系图(贝叶斯网络图),能够定量验证经验图和贝叶斯网络图的课程类别间存在相似的层次影响关系,同时还发现两者的枢纽课程基本相同,但两者的部分课程之间的衔接关系存在明显差别。以下为对两者进行总结对比分析的结果。

1.定量验证课程类别间的影响关系

贝叶斯网络图和经验图的课程类别间影响关系的相同之处在于,两者的四类课程之间均呈现“从左至右”的层次影响关系,并且四类课程别之间的影响关系主要体现在相邻课程类别之间(课程类别之间是否相邻取决于它们的修读顺序是否相近),说明了课程分类和分层的设置确实具有科学性;两者的不同之处在于经验图中的通修课只影响与其相邻的学科群基础课,而贝叶斯网络图中的通修课不仅会影响学科群基础课,还会影响后续的专业方向课。两者在课程类别间影响关系的这些异同点,启发高校教师应重视借助定量方法来挖掘课程体系中课程类别之间的影响关系。

2.准确识别课程体系中的枢纽课程

枢纽课程是指在课程体系中同时对其他多门课程产生影响的课程,在整个课程体系中往往起到关键作用。在课程网络体系中,如果一门课程有至少两条有向边指向其他课程,那么就将这门课程定义为枢纽课程。识别枢纽课程对教师的教学过程具有重要的指导意义,同时也能够让学生在众多课程学习中做到有的放矢。不难看出,经验图和贝叶斯网络图的枢纽课程均包括数学分析、实分析、概率论和数理统计。这4门课程来自通修课和学科群基础课,其中的数学分析、实分析中的微积分理论是概率统计的重要理论基础,对后续专业课的学习有着不可忽视的支撑作用。而数学分析、概率论和数理统计这3门课程的内容也在统计学专业考研科目中占有很大的比重。

3.深入挖掘研究课程之间的衔接关系

通过对比发现,经验图和贝叶斯网络图的部分课程之间的衔接关系存在比较明显的差异。例如,经验图中的计算机程序设计和实用统计软件是互不影响的,而贝叶斯网络图中计算机程序设计会影响实用统计软件。实际上,统计学常用的编程软件(R、Python等)会受到与之联系密切的计算机类基础课的影响。再如经验图中的实分析和复分析是平行关系,而贝叶斯网络图中实分析会影响复分析等。事实上,复分析和实分析的内容框架存在高度的相似性。由于这些课程之间衔接关系的差异性,有必要深入探讨课程内容的相似性,结合课程设置来综合考虑课程之间的衔接关系。

三、关于统计学课程体系的优化建议

基于前文的分析结果,结合统计学课程体系研究的最新成果,本研究提出了统计学课程体系的构建原则,并就进一步优化课程体系给出参考意见。

(一)定性与定量相结合的原则

统计学课程体系的构建是一个整体性工程,需要兼顾学科培养目标、社会岗位需求以及课程衔接等多方面的因素,不仅要结合专家的定性研究,还要借助对教学数据的定量分析来构建更加科学合理的课程体系。高校在制订培养方案、构建课程体系时,不应拘泥于传统的教学体系框架,而应借助定量分析手段(如网络自回归模型、贝叶斯网络模型等)对相关用人企业提供的数据和教学过程中产生的数据进行分析,同时,可结合专家和学生的反馈意见,适时对课程体系做出动态调整。

(二)课程体系的系统性原则

课程体系的系统性原则要求其中的课程须保持层次性和紧密性,以确保专业培养目标的集中统一。首先,应根据课程领域、课程结构以及课程功能等分类标准将课程分为几大类,在实现课程模块化的同时,进一步确定课程类别间的层次关系;其次,应结合专家经验和定量分析手段来确定每一类课程的枢纽课程,并将研讨型的教学模式以及严格的质量监控评教体系引入枢纽课程,以保证高水平的教学质量;最后,深入研讨枢纽课程和其他课程之间的影响关系,并根据课程之间影响关系的特点,对那些与其他课程没有影响关系且与统计学专业培养目标关系不大的非枢纽课程进行删减或压缩其学时学分,以确保课程体系的紧密性。

(三)课程衔接的科学性原则

课程衔接的科学性原则体现在围绕高校办学特色,基于学位要求,对不同课程内容进行连接,使其相辅相成,以达到发挥课程体系最大教学成效的目的。首先,依照高校办学特色对课程之间的逻辑关系进行分析,依托特色课程来强化课程体系与办学特色的内在关联性;其次,基于人才培养定位的具体要求来设置课程并做好课程间的衔接,通过紧密联系的课程链,逐步加大课程难度来培养学生的学习思考能力;最后,组织各门课程的负责人做好课程规划,明确各门课程的知识要点、讲授程度以及授课要求,确保各门课程教师讲授自己该讲授的内容,并在此基础上结合定性和定量的分析手段深入研究课程之间的衔接关系,形成初步的课程网络体系,为后续进一步完善课程体系提供参考。

四、结语

高等教育的学科质量建设是高校亟须解决的根本性问题,统计学作为一门与时俱进的应用交叉型学科,与数学、计算机、人工智能等学科的深度融合已成为数据科学领域教学的热点方向。因此,科学合理地设置统计学课程体系对数据科学领域人才的培养具有重要意义。本研究从课程成绩的角度出发来探究统计学教育的建设和发展情况,借助贝叶斯网络模型,构建得到基于成绩分析的统计学课程体系,结合基于定性分析的统计学课程体系特点,提出了优化课程体系的构建原则,并给出了进一步优化课程体系的若干建议,为提高统计学科的人才培养质量提供了参考方向。

[ 参 考 文 献 ]

[1] 刘道玉.论大学本科课程体系的改革[J]. 高教探索, 2009(1): 5-9.

[2] 孟生旺,袁卫.大数据时代的统计教育[J]. 统计研究, 2015, 32(4): 3-7.

[3] MOCKO M. Updated guidelines for statistics education: the GAISE 2016 college report [J]. AMSTAT news, 2017(4): 22-23.

[4] 馬岱,史巧硕,吴敬松.基于多元统计分析的课程体系量化评价模式研究[J].中国大学教学,2009(9):69-71.

[5] 胡杨利,龚红仿,李应求.关于理工类高校统计学专业课程的实践教学探讨[J].大学教育,2017(2):64-65.

[6] 曾守桢,苏为华,张崇辉.统计学类本科专业课程体系的国际比较:基于1072个专业的文本挖掘分析[J].统计研究,2020,37(10):52-65.

[7] 宋丽影,赵临龙.关于统计学专业发展的思考[J].统计与信息论坛,2015,30(2):106-112.

[8] 姚洁,朱响斌,宋新方,等.基于节点排序的贝叶斯网络结构学习算法[J].计算机工程,2017,43(5):317-321.

[9] NAGARAJAN R,SCUTARI M,L?BRE S.Bayesian networks in R[M].NewYork: Springer,2013.

[责任编辑:苏祎颖]

猜你喜欢

统计学
关于投稿的统计学要求
统计学符号使用的说明
统计学符号使用的说明
统计学符号使用的说明
本刊对来稿中统计学处理的有关要求
本刊对来稿中统计学处理的有关要求
本刊对统计学处理的有关要求
基于统计学发展趋势的高校统计学教学改革研究
本刊对统计学处理的有关要求
本刊对统计学处理的有关要求