基于神经网络和支持向量机的体测分析模型

2021-12-14叶子健刘士文景冰璇牟怿

科学技术创新 2021年34期

叶子健刘士文景冰璇牟怿＊

（武汉轻工大学电气与电子工程学院，湖北武汉 430000）

1 概述

大学生体质测试是中国高等学校体育教育的重要组成部分，同时也是国家了解和掌握大学生体质水平发展动态、促进大学生身体素质提高的关键措施。因此，我国各类学校都在围绕《国家学生体质健康标准》的实施及学生体质健康水平展开了广泛、深入的研究与探索。

《学生体质健康标准》测试项目包括体重指数、肺活量、50m跑、坐位体前屈、立定跳远、引体向上（男）/1min 仰卧起坐（女）、1000m 跑（男）/800m 跑（女）等[1]。通过打分制的方式对学生体质进行评价，由于各指标的重要程度不同，因此这种方法并不能有效的反映学生身体健康状况。而传统的评价方法例如模糊综合评价法[2]、熵权法[3]等，根据隶属度理论实现定性评价转化成定量评价，从而优化上述缺陷，但美中不足的是传统方法在数据挖掘中并不能获取到一些很好的信息，因此我们可以通过机器学习来分析影响大学生体质健康的隐含因素，并为大学生更加健康的成长提供解决思路。

2 数据处理

在收集到15034 条体测抽检数据中，存在部分信息缺失或者不规范、甚至是错误的数据，因此首先要对数据进行预处理，此过程对数据挖掘极其重要[4]。一方面是为了提高数据的质量，减少冗余信息，结合体检数据特点，对训练数据集进行如下处理。

2.1 对所有的空值、NULL（包括0 分）、或因身体原因免除体测的数据进行删除；

2.2 由于男女同学体检的项目和检测的标准不同，因将男女数据分开进行训练；

2.3 为更好匹配模型，将数据归一化，最后得到数据集13689条，如图1 所示。

另外一方面是为了处理数据输入不当导致的数据描述不完整、数据缺失和数据的不一致的情况，需选择合理的特征属性。结合《学生体质健康标准》测试项目，选择了男女性别、身高体重指数、肺活量、50m 跑、坐位体前屈、立定跳远、引体向上（男）/1min 仰卧起坐（女）、1000m 跑（男）/800m 跑（女）共8 个属性。综上所述，将清理后的数据分为4 个等级，分别为不及格（＜60），合格（＞60,＜79），良好（＞80,＜90），优秀（＞90）。

3 建模理论方法

文本将使用两种不同的机器分类算法支持向量机和BP 神经网络对男女体测成绩进行预测。首先对原始数据进行预处理，并按照一定比例划分训练集和测试集。将训练集作为输入进行训练，调整各算法的优化参数得到分类模型，再将测试集作为输入，最后比较模型所给准确性。

3.1 支持向量机简介。支持向量机学习的基本思想是在训练样本集中找到构造最优分类超平面的支持向量。假设给定线性可分训练集数据集T={（x1，y1），（x2，y2）…，（xN，yN）}，其中，xi∈Rn，yi∈{-1，+1}, i=1，2，…，N。n 为样本空间维度，yi为样本类别标签。最优分类超平面对应着将不同类别正确分类且超平面间隔最大，此时模型训练误差为零。如图2 所示二维空间中的分类问题，图中圆圈和正方形分别代表两种类别，Z 表示最优分类超平面，Z1、Z2分别表示两类别中离超平面Z 最近的平面，其两者间的距离称为分类间隔。n维空间中分类器判别模型函数为：f（w）=sign（wTx+b）。超平面方程为：wTx+b=0，Z1：wTx+b=-1，Z2：wTx+b=+1。式中，w∈Rn，代表超平面的法向量。

图2 最优分类超平面

此时分类间隔为2/||w||，若要求最大分类间隔，则需要||w||2最小。当所有样本点均正确分类时，满足

求最优分类超平面问题可转换成带约束条件的凸优化问题进行求解：

对于线性不可分时，存在一定的分类误差，不满足上式。因此在优化目标函数中引入了松弛变量ζi（ζi0），此时优化问题为：

式中：C＞0 称为惩罚参数，若C 的取值越大，则对误分类的惩罚越大，C 的取值越小，则对误分类的惩罚越小[5]。此时，线性不可分的线性支持向量机的学习问题变成凸二次规划问题，可用拉格朗日函数，将原问题转换为其对偶形式，如式：

当样本非线性时，可以选择核函数进行求解，常用的核函数有如下四种：①线性核函数：K（x，z）=（x·z+1）p；②多项式核函数：K（x，z）=（x·z）+c）d；③高斯核函数：K（x，z）=exp（-||x-z||2/2σ2）；④sigmoid 核函数：K（x，z）=tanh（γ（x·z）+γ）。本文主要采用高斯核函数对SVM进行研究。对应的分类决策函数为：

3.2 BP 神经网络。BP 神经网络可以完成任意n 维到m 维的映射[6]，通过模拟神经元结构和功能的来模拟人脑，具有快速、准确、并行解决复杂问题的能力。当训练样本足够多时，BP 神经网络能够将误差降低至非常小，使预测结果足够精确[7]。相比其他神经网络算法，BP 神经网络能够利用隐藏层将误差从输出向输入逐层反向传播。在反向传播过程中利用最速下降法修改权值和阀值，使误差函数快速收敛，具有很快的训练速度和良好的算法[8]。

4 实验结果与分析

4.1 支持向量机模型。在监督学习理论中，包含两个数据集：一个用于建立模型，称为训练样本集；另一个用于检验所建模型的好坏，称为测试样本集。经过对数据预处理后，随机抽取一半的实验数据作为训练集，输入支持向量机进行训练，将剩下的一半实验数据作为测试集，利用建立好的模型分别对男女生体测成绩进行分类和鉴定。

本模型选用LIBVSM 作为训练和测试工具，选用高斯核作为核函数。通过十叠交叉验证法对（c, g）参数进行搜索，每一组（c, g）参数需要计算出10 叠交叉验证精度的最优值，以交叉验证精度最高的一组（c, g）作为最佳参数，男生如图3，女生如图4 所示。

图3 网格搜寻算法寻优图（男）

图4 网格搜寻算法寻优图（女）

由图5（男）、6（女）所示，根据模型与实际情况相比较，其中所有样本分类均正确，准确率男生高达94.25%，女生高达94.87%，说明该模型具有极强的泛化能力，在高维度下仍具有极高的精度。

图5 样本误差图（男）

图6 样本误差图（女）

4.2 BP 神经网络模型

体测成绩分类的BP 网络模型采用三层网络结构，即输入层、隐含层和输出层，各层之间相互连接。其中，输入层的神经元个数即样本的特征8 个，输出层样本的标签数1 层，隐含神经元个数为8 层。默认BP 神经网络模型的权值，学习步长设置为0.001，最大训练次数为50000 次，期望误差为0.01。将8123（男）、5494（女）组样本标准化后作为输入项，抽取其中1/2 作为验证，1/2 作为测试，其余数据用于训练网络。经过多次训练，若符合指定的误差，那么该神经网络模型成立，可应用此模型。

图7（男）、图8（女）为训练的性能曲线，表示其方差变化情况，经过4 次循环后，网络实现收敛，其均方差为0.0070188 和0.0098638，均小于所设定的期待误差目标0.001。整条曲线下降速度较快，表示学习速率的大小合适。91.85%，女生为92.14%。

图8 BP 神经网络训练的性能曲线（女）

图10 样本误差图（女）

图11 BP 函数归回图（男）

图12 BP 函数归回图（女）

5 结论

体测成绩受多个项目的影响，要保证成绩合理的划分，就必须对各个方面客观的评价。传统的方法成绩并不是非常客观，据此，本文引进支持向量机和BP 神经网络在体测中的分析，得出以下结论：（1）将支持向量机应用到体测成绩检测中，通过SVM 分类器训练样本，使分类器拥有联想功能，通过网格搜寻算法寻优取得，最后选取高斯核函数SVM 模型，应用于此模型完成鉴定分类，预测正确率为95%；（2）应用BP 神经网络模型在一定程度上减少了人为因素的干扰，省去了复杂的演算过程，最后预测准确率为92%。