APP下载

基于DWT和随机森林算法的运动员损伤可能性监测系统研究

2020-03-08

关键词:决策树分类器数据库

马 东

(山西体育职业学院)

0 引言

运动是改善人体心脑血管健康、提高肌肉强度、实现心理健康的主要方式,但在运动过程中,不正确的发力方式所导致的运动损伤是非常普遍的.大部分运动损伤都是由于组织上存在过度负荷,进而引起的骨骼、关节和肌肉消耗,运动损伤的累积会导致明显的伤病情况.该文将采用机器学习中的DWT和随机森林算法,并结合可穿戴监测设备,构建精准度高、整体成本低的运动员损伤可能性监测系统.

1 相关理论

1.1 自动分类方法

自动分类方法是实现运动损伤可能性监测的重要手段,运动员在佩戴可穿戴智能设备之后,日常活动和训练过程的相关运动数据都会被上传至U盘或云端,一旦运动员发生了运动损伤,体育健康调查人员就可以迅速从数据库中追溯相关活动数据,进而将相关活动与运动损伤的可能性相关联,最终从大量运动员的个人数据库中,提取和运动损伤相关的内容,进而构建一个大型的运动损伤监测数据库,并在未来的运动损伤预防中起到作用.

1.2 离散小波变换

离散小波变换(Discrete Wavelet Transformation,下文简写为DWT)是对基本小波的尺度参数和位移参数进行离散化,在当前的运动损伤数据库建设过程中,运动员智能穿戴设备中的加速度计所提供的数据均是包含X、Y、Z三个方向的三维数据.而计算机是以二进制离散方式处理数据的,因此无法对三维数据进行特征归纳,为了解决这一问题,就需要将连续小波及其小波变换离散化.

DWT方法就是对加速度数据进行特征提取,将运动员的三维加速度分解为X、Y、Z三轴矢量小波,然后通过各个小波的平移和缩放,将三维加速度转换为二进制的离散小波.假设运动员在一段时间内实现了E1的总能量释放,总能量可以分解为i个级别的小波,则有:

(1)

(2)

(3)

1.3 随机森林算法

在DWT方法将运动员的三维加速度数据转换成离散二进制数据的基础上,需要采用机器学习中的分类器对运动员活动进行自动分类,而找到更准确、高效的分类器,就能够增强损伤可能性监测系统的成功率.

从现有的研究来看,最邻近算法(k-NN)、径向基函数神经网络(RBF Network)、朴素贝叶斯分类器(Naïve Bayes)和随机森林算法是最常用的四类分类器.具体而言,k-NN的核心思想是每个样本都可以由最接近的k个邻近值表示,这一方法的操作过程比较简单,但在样本不平衡时表现较差;RBF Network则通过前馈式逼近实现对样本的预测,具有规划效率高的特点,但结构相对简单;朴素贝叶斯分类器基于贝叶斯理论进行先验估计,在多个分类器中具有较低的误差率,但由于独立同分布的条件限制,其应用场景相对狭窄.

相比于以上三种分类器,随机森林算法属于比较新的融合算法,由Breiman所提出.其基本思想源于统计学中的自抽样(Bootstrap)方法,通过对原始样本中所抽取的部分样本进行自抽样,进而构建决策树,再将所有决策树单独计算得到的预测平均值作为最终结果,随机森林算法实质上是多个弱决策器集成的强预测器.

设定θ为随机参数向量,对应的决策树为T(θ).记B为X的域,即X:Ω→B⊆RP,其中p∈N指代自变量的维度.决策树的各个叶节点对应B中的一个矩形空间,记为Rl⊆B(l=1,2,…,L).对于参数x∈B,有且仅有一个叶节点l满足x∈Rl.记决策树T(θ)的叶节点为l(x,θ).基于上述设定,随机森林算法的基本步骤可以简要归纳如下:

(1)针对原始数据库中提取的数据进行Bootstrap重抽样,产生k个训练集:θ1,θ2,…,θk;利用上述训练集形成决策树{T(x,θ1)},{T(x,θ2)},…,{T(x,θk)}.

(2)假设存在M个特征维度,从中抽取m个特征作为当前节点的分裂特征集合(一般而言,森林生长过程中,m的数量不变);假设每个决策树均能得到最大限度的生长,且不存在剪枝情况(即各个决策树就能实现最大化预测).

(3)假设决策树T(θ)中存在观测值Xi属于叶节点l(x,θ)且不为0,则可以定义分配权重:

(4)

式(5)中权重之和为1.

(4)对单颗决策树的预测值而言,是由各个因变量的观测值Yi(i=1,2,…,n)加权平均所得,其预测值公式如下:

(5)

(5)通过公式(5)中各个决策树的预测值,结合公式(4)的权重,就可以得到每个观测值Yi的权重:

(6)

则随机森林算法的预测值可以记为:

(7)

2 损伤可能性监测系统框架

2.1 框架结构

运动损伤监测是一个系统且复杂的过程,在数据处理方案基本明确的基础上,该文的研究主要考察慢跑运动员下半身(小腿、大腿、臀部)的运动损伤可能性,并针对膝关节和髋关节的运动损伤监测和防范提出建议,以此证明DWT和随机森林算法能否用于设计运动员损伤监测系统.系统框架如图1所示.

图1 运动损伤分析框架

由图1可见,运动损伤分析框架由三个核心部分组成:

(1)数据处理过程.针对可穿戴智能设备所反馈的运动加速度三维数据,采用DWT方法进行特征提取,将相关数据转化成计算机能够处理的二进制离散数据.再通过随机森林算法作为分类器,实现对运动损伤情况的有效分类,将相关数据送入运动损伤监测数据库,作为训练所得可能造成运动损伤的运动位移曲线.

(2)力学分析过程.由于研究主要考察慢跑运动员下半身的三个核心部位及膝关节和髋关节的运动损伤情况,因此需要在可穿戴智能设备中,分别在小腿、大腿和臀部安设三轴陀螺仪,以记录三维加速度数据.利用慢跑姿态的力学模拟和加速度分析,得到膝关节和髋关节的屈伸/伸展角度,进而将膝关节方向和髋关节方向录入运动损伤监测数据库,与训练集自动分类的可能性运动位移曲线对比,针对两者的相似性提出损伤预防建议.

(3)运动损伤监测数据库.该数据库由训练集和实际监测数据构成,数据库中存在由体育与健康专家针对各类可能性运动位移曲线提供的损伤预防建议,由于机器学习是一个长期过程,随着运动损伤监测数据不断输入数据库,数据库中的样本数量将不断提升,进而实现更为有效的运动监控.

2.2 可穿戴监测设备

基于图1的运动损伤分析框架,需要针对性的设计慢跑运动员的可穿戴监测设备.研究借鉴王沛(2019)研究中所采用的WIMU(Wearable Inertial Measurement Units,可穿戴式惯性测量设备),分别在运动员的左右腿设置3个陀螺仪(总计6个),陀螺仪放置于运动员小腿、大腿和臀部上.

与图1的实验框架一致,研究主要考察膝关节和髋关节的运动损伤可能性,这是由于肌肉拉伤、劳损等问题可以通过修养得到缓解,但关节损伤能够造成慢跑运动员运动能力的永久下降.此外,在运动过程中运动损伤主要源于足部与地面接触形成的冲击,当冲量沿小腿向上移动时,肌肉能够通过收缩有效化解冲击对肌肉产生的能量,软组织的形变不仅会导致陀螺仪测量不准确,也会对关节的角度估计产生负面影响.

2.3 运动损伤的力学分析

进一步对运动损伤的力学反馈进行分析.研究主要考察的是短跑项目的运动损伤情况.之所以选择短跑项目,是因为该项目包含了可以构成大多数运动项目的基本动作,以及基本动作产生的动能冲击.一是足部与地面接触所产生的动能冲击;二是关节发力阶段,肌肉的发力会导致两个相反的力量传达到关节的上下端,发力方式的不正确,就会导致可能的运动损伤;三是腿部摆动阶段,腿部的摆动会导致软组织之间的摩擦,进而造成关节的消耗,产生潜在的运动损伤.

根据上述过程,可以通过随机森林算法对三个动作进行分类提取:

(1)通过膝关节角度和胫骨加速度水平识别脚与地面的接触周期(即脚部完全着地到下一次脚部完全着地),脚部完全着地时,腿部整体会出于短暂的收力状态,三个陀螺仪加速度会提现为局部循环加速度达到最大时的突然下降.

(2)提取膝关节和髋关节角度.将当前的运动位移曲线进行分离,比对训练集中类似的曲线模式.由于不同运动员的运动速率不同,因此曲线的周期(时间特征)并不一致,运动员在起步阶段周期相对较长,而在冲刺阶段周期相对较短,同时各个循环的力量最大值和最小值也不一致,为了保留位移曲线的所有信息,需要采取规范化曲线进行数据读取.这里采用相移配准方法:

(8)

(9)

公式(8)和公式(9)中可以看到,这里采用了周期性性质,并将最小正周期定义为δi,那么考察慢跑中的动作分类,就需要找到使得平均标准误差(SSE)最小的δi,这里的SSE是根据运动时间内的总平均值μ(t)得到的,也就是说,δi可以通过训练集数据先验性的得出.

(3)根据最优的δi读入上述运动位移曲线,当所有波形被读入之后,采用自抽样方法重复n次,直至波形不发生显著改变,即:

SSEn-1≤SSEn≈SSEn+1

(10)

此时,就得到了该运动员的活动分类情况,并可以通过特征值来检查相关运动位移曲线是否具备运动损伤倾向.

3 实验及结果分析

3.1 实验对象

招募了16名健康慢跑运动员和4名存在膝关节历史的慢跑运动员(实验间可开展低强度运动)进行实验.受试者在研究人员帮助下合理佩戴陀螺仪,并在400 m环形跑道进行低强度运动,通过对不同类别(健康、易损伤)的慢跑运动员的动作进行训练.由8名健康运动员和2名存在运动损伤历史的运动员构建基础训练集,另外10名运动员(8健康+2损伤)作为测试集合.研究主要考察了原地踏步走、步行、慢跑、冲刺跑、跳绳、立定跳远六个动作的相关数据.每个动作持续约1 min,整个训练过程持续约10 min.训练过程中相关数据均被有效记录至储存卡上,后续处理过程中,由R软件自动执行峰值对齐和曲线录入,研究人员并没有实施数据干涉.

3.2 分类评估

在Python软件环境中,采用DWT和随机森林算法,对上述数据进行有效分类,误差矩阵见表1.

表1 随机森林算法的误差矩阵

基于表1的误差矩阵,进一步考察训练集中随机森林算法分类器精度、召回率和F值水平,结果见表2.

表2 分类器精度、召回率和F值

根据表2可见,采用随机森林算法作为分类器,训练集的F值均大于0.90,从大小排序来看,原地踏步走、步行和慢跑的F值大于0.98,说明三者的测试精度最高;冲刺跑和跳绳均大于0.97,测试精度稍低,但仍处于较高水平;立定跳远的F值为0.946,精度最低,这可能是因为陀螺仪在大幅度改变方向过程中,受到外界影响较大,因此测量精度有所下降.

基于上述训练集的基础数据库,再次录入10名运动员的相关数据,测试结果如表3所示.

表3 测试集判定情况

由表3可见,基于训练集的分类标准,测试集的10位运动员判定结果均正确,由此可见研究所构造的基于DWT和随机森林算法的运动员损伤可能性监测系统具备较高的精准度.

3.3 对比测试

为了说明DWT和随机森林算法(RF)所构造的监测系统的表现,研究纳入径向基函数神经网络(RBF Network)和朴素贝叶斯分类器(Naive Bayes)进行对比分析.首先考察三类分类器进行训练和损伤监测所需时间,结果见表4.

表4 三类分类器测试与训练时间

由表4可见,通过三类分类器的比较可以看出,随机森林算法的训练时间较短,训练完成后测试时间接近0s,整体运行效率最高.径向基函数采用前馈式逼近方案,训练和测试时间比较接近,在小范围测试中用时较短,但在样本进一步扩大的情况下整体效率不容乐观.朴素贝叶斯分类器训练时间超过5 min,这是由于朴素贝叶斯分类器需要测得先验系数和权值,整体计算过程较为复杂,但测试过程中就能够实现较快的处理.总的来看,由于该研究纳入了DWT方法,有效提升了测试效率,使得三维特征值实现了降维,极大地提升了训练效率.其次,随机森林算法兼顾两个阶段的运算速度,应用前景更开阔.

4 结论

该文构建了一种基于DWT和随机森林算法的运动员损伤可能性监测系统,该系统能够利用DWT算法实现对三维加速度矢量数据的离散化,进而通过随机森林算法对运动损伤的移动位移曲线进行绘制.其次,系统采用了智能穿戴设备,通过3个陀螺仪测量单腿应力水平,提取小腿、大腿和臀部的相关加速度数据,计算膝关节和髋关节的应力情况,进而绘制成移动位移曲线,进而通过分类器与运动损伤数据库进行对比,考察运动员的损伤可能性.研究所提出的系统框架对于运动员的损伤倾向监测有着重要意义:(1)能够有效识别运动员的运动损伤倾向;(2)通过运动员损伤可能性位移曲线针对性地提出防范建议;(3)系统整体成本较低,测试精度较高,易于大范围推广.

猜你喜欢

决策树分类器数据库
学贯中西(6):阐述ML分类器的工作流程
基于朴素Bayes组合的简易集成分类器①
基于动态分类器集成系统的卷烟感官质量预测方法
简述一种基于C4.5的随机决策树集成分类算法设计
一种自适应子融合集成多分类器方法
数据库
决策树学习的剪枝方法
数据库
数据库
数据库