APP下载

基于回归方法的学生学习成绩影响因素分析

2022-08-30周旭东马朝珉刘淇文

科技创新与应用 2022年23期
关键词:回归系数生源学习成绩

周旭东,马朝珉,刘淇文

(1.东北农业大学 文理学院,哈尔滨 150030;2.东北农业大学 高教研究与教学质量评估中心,哈尔滨 150030)

学生学习成绩受众多因素影响,近年来研究者从不同角度分析影响学生学习成绩的因素,并尝试进行有效干预。康博迪等[1]通过对西安文理学院学生信息的采集,分析学习成绩的影响因子并建立回归模型,从而预测出各因子和大学生学习成绩相关性;马永梅等[2]利用灰色关联分析法分析内在因素对学生学习成绩的影响;李雪梅等[3]采用主成分分析的方法,研究分析影响学生数学成绩的主要因素;王晓娇等[4]研究发现大学生学习成绩受个人、学校、家庭以及社会4个层面各种因素的影响,其中性别、户籍、家庭受教育程度、学习动机、学习兴趣、自习次数、逃课次数、作业情况、宿舍氛围、兼职、参与社团和学生会等11个变量显著影响大学生学习成绩;李思思等[5]研究发现影响学生学习成绩的主要因素包括:学生的学习目标明确度、学习勤奋度、对待教师授课的满意度、学生的听课感觉、考前准备时间、知识来源途径、抚养人严格程度及是否跟得上学习进度等诸多方面;闫波等[6]研究发现对学生学习影响较大的因素,主要有学生家庭社会和文化地位指数、学习动机、课堂纪律氛围、教学方式和师生消极行为等。

本文主要研究的是学生学习成绩影响因素,不考虑教师教学因素,即在教师教学因素固定的情况下进行分析,也不考虑难以观测的主观意愿,如对课程的喜好程度、学习意愿和兴趣热情动机等,仅选取分析学校可观测、可量化的影响因素,进而改善教学管理,提高教学质量。

1 数据集与数据预处理

1.1 数据集

UCL-Math及UCL-Portuguese数据集来源于UCL数据库,其中的因变量分别是学生的数学成绩以及葡萄牙语成绩,包含的成绩影响因素主要分为3大类,分别是个人因素、家庭因素、学校因素。NEAU-stu数据集来自于我国一所211农业院校2020届部分学生的相关信息。其因变量是某学期学生的智育成绩,包含的成绩影响因素主要是个人因素和家庭因素。

1.2 数据预处理

本文的数据预处理主要为以下3项:

(1)对于“是”和“否”的属性分别赋值1、0。

(2)对于可以取多个值的属性赋值0、1、2等,而后将其归一化到[0,1]区间内。

(3)对于连续变量直接将其归一化到[0,1]区间内。

2 实验结果

本文实验环境为:Win10 64 bit操作系统,Jupyter Notebook(Python 3.8),利用Python中的Sklearn工具包实现回归算法。

本文拟采用套索回归和岭回归对学生的学习成绩进行影响因素分析[7]。具体的策略为:通过建立回归模型,观察回归方程中对应各个属性的变量前的回归系数来确定每个因素对学生学习成绩的影响程度,若回归系数大于0,则此因素为正向影响,反之则为负向影响。回归系数的绝对值越大则说明对学习成绩的影响越深。且通过实验发现,该回归模型的MSE、MAE、R2这3种评价指标值也均在合理的区间内。

岭回归和套索回归的主要差别在于损失函数中的正则项不同。岭回归采用的为L2正则项,而套索回归采用的为L1正则项[8]。因而在影响因素分析中套索回归可以剔除一些对因变量影响较小的变量,更有利于进一步分析。

表1为UCL-Math及UCL-Portuguese数据集回归系数,从个人因素、家庭因素、学校因素3大类别进行分析,其中个人因素分为背景信息、前期成绩、学习投入及其他4个分项。分析数据见表1。

通过分析发现,学生的学习成绩与所在学校、性别、年龄、家庭住址、父母是否同居、父亲工作、选择学校原因、监护人、谈恋爱情况、放学后的课余时间、健康状况和前一阶段的成绩等情况关系最为密切。其中女同学比男同学平均学习成绩更优;同一年级情况下年龄小的学生比年龄大的学生成绩更优;在城市居住的孩子比在乡镇居住的孩子成绩要更优;同居的父母要比分居的父母的孩子成绩更优;父亲是在家工作或者其他工作的其孩子成绩更优;更看重学校声誉的孩子成绩更优;监护人为父亲的孩子成绩更优;不谈恋爱的孩子成绩更优;放学后有更多课余时间的孩子成绩更优;健康状况较差的孩子反而学习成绩更优;前一阶段成绩更好的孩子一般成绩也会更优。另外,与学生的学习成绩关系相对没有特别密切的有家庭人数、父母受教育情况、母亲工作、居住地到学校花费时间、每周学习时间、过去失败的次数、学校和家庭对教育的额外支持、是否补课、是否有课外活动、是否上过幼儿园、想接受高等教育、家庭是否有网络、家庭关系情况、和朋友外出次数和饮酒情况等。其中家庭人数超过3人的家庭其孩子学习成绩更优;母亲学历越高孩子成绩越好、父亲学历越高孩子成绩相对较差、母亲的工作为教师等职业孩子学习成绩更优;家庭住址与学校距离越近的孩子学习成绩越优;每周的学习时间越长孩子的学习成绩越优;失败次数越少的孩子成绩越优;家庭和学校有额外教育支持的孩子成绩更优;不参加补课的孩子比参加补课的孩子成绩更优;没有课外活动的孩子学习成绩比有课外活动的孩子成绩更优;上过幼儿园、想接受高等教育、家庭有网络等情况的孩子学习成绩更优;家庭关系较好、与朋友外出较多以及无论是工作日还是休息日都不饮酒的孩子成绩更优;另外,有一定量的缺勤次数的孩子学习成绩更优。

表2为NEAU-stu数据集回归系数表,结合本国国情和高校实际情况,在表1的基础上作了影响因素补充,其中个人因素的背景信息中新增政治面貌及民族;前期成绩新增高考成绩与一本线分差及上学期智育学分成绩;新增第二课堂参与情况,包括思想品德修养模块、创新能力培养模块、人文素质拓展模块、社会能力提升模块。家庭因素新增省份、居住地类别及家庭条件。分析数据见表2。

表1 UCL-Math及UCL-Portuguese数据集回归系数

表2 NEAU-stu数据集回归系数

通过分析发现:学生的学习成绩与政治面貌、民族、上学期智育学分成绩、是否为城市生源、是否为乡村生源、综合素质中查寝、晚自习、早操等情况关系最为密切。其中政治面貌为群众的同学成绩要略优于共青团员;汉族同学成绩要优于少数民族、上学期成绩优的同学新学期成绩也较优、城市生源地的同学学习成绩更优;乡村生源地的同学成绩略低于其他生源地;综合素质中查寝以及早操得分高的学生成绩差于得分低的,而晚自习得分高的学生成绩好于得分低的。

对学生学习成绩影响不太突出的因素有性别、是否为贫困生、是否办理校园地贷款及生源地贷款、省份、是否城镇、综合素质分数中创新能力得分、人文活动、各类社团及学生组织任职情况、高考成绩等。其中女生较男生成绩较好;贫困生较非贫困生成绩较好;非黑龙江省生源学生成绩较好;非城镇生源要好于城镇生源;综合素质得分中创新能力及人文活动对成绩是负向影响,而任职情况为正向影响;高考成绩与当年一本线分差越大反而成绩弱于分差小的学生。

3 结论

通过对UCL-Math及UCL-Portuguese数据集分析发现:①适龄上学对学习成绩的提高是很有帮助的;②选择一个好的学校对孩子的学习是极其重要的,而且在选择学校时,学校的声誉是关键的因素;③监护人为父母以及父亲为体制外工作,母亲为体制内工作对孩子成绩提高最有帮助;④保持一个良好的家庭关系以及在教育上多做支出对孩子的学习成绩提高是很有帮助的;⑤增加学习的时间、做适当的课外活动也可以有助于提高学习成绩;⑥学生期间谈恋爱对成绩是有负面影响的。

对NEAU-stu数据集分析发现:在客观因素上,女同学的成绩平均要比男同学更优,这可能与她们在性格上更加细心有关系;高考生源地为外省的学生平均学习成绩要好于黑龙江本省的生源,这可能与外省的教学质量以及进入NEAU的考试难度有关;城市生源的同学学习成绩要更好,这也与其在中学阶段可以受到更好的教育有关;是否贫困对学生成绩的影响不大,但是贫困在一定程度上会激发学习热情,提高学生的学习成绩。在主观因素上,上更多的晚自习,在自习中表现得更好有助于提高学习成绩;适当的学生工作任职不仅无害于学习,反而有助于成绩的提高;大学中的各类科创、人文活动以及类似查寝和早操等常规化的检查与学习成绩的好坏没有直接联系。

猜你喜欢

回归系数生源学习成绩
新形势下提升传统本科专业生源质量的思考和认识
农村生源不是“摇钱树”
名落孙山
多元线性回归的估值漂移及其判定方法
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性
图表
陕北红色学校与国民党在西安的生源争夺战
大学生学习动机与学习成绩的相关研究
城镇居民收入差距主要因素回归分析