APP下载

相空间重构的轻量级活动识别算法研究

2021-11-28和梦琪施伟斌

软件导刊 2021年11期
关键词:实验者相空间维数

和梦琪,施伟斌

(上海理工大学光电信息与计算机工程学院,上海 200093)

0 引言

随着MEMS 技术和人工智能的快速发展,智能生活辅助系统备受关注[1-4]。人体活动识别(HAR)因其在普适计算中的卓越贡献,已成为其中一个热门研究领域。研究人员将该系统作为获取信息的媒介,通过环境传感器和可穿戴传感器信号获取人体行为信息,将采集的信号数据通过机器学习算法加以处理,以识别发生事件的种类。HAR 系统可在智能环境中的许多实际场景中得到应用,例如智能家庭医疗保健系统,可以连续地观察病人,实现监控诊断和医疗辅助[5-6],尤其是将其应用于行动不便的高危老人日常行为监控,预防老人跌倒引发的意外情况[7-9]。

在过去几十年里,研究者针对人体活动识别进行了大量研究,基本可概括为两种识别方法:一是基于环境采集设备如麦克风及摄像机等[10-11],二是基于可穿戴传感器设备。基于环境传感器的人体活动识别主要关注摄像机采集的信息,因为摄像机可以容易地检索周围环境的图像。但随之也带来了隐私相关问题,这种方案不能很好地保护与尊重监测者的隐私,并且受限于复杂环境因素如光线,视频传感器并不能准确地提供监测者的活动信息。于是,惯性传感器等可穿戴传感器因其可以克服隐私问题而在智能家居应用中得到越来越多的关注[12-14]。基于可穿戴传感器设备的人体活动识别系统通常用于识别大范围的日常活动,如站立、行走、上下楼梯以及奔跑等。大多数人体活动识别需提取时域、频域以及启发式的多维特征并将其作为训练特征向量,Anguita 等[15]提取时域与频域的17种特征向量,并利用定点算法降低计算成本,通过标准的SVM 分类器对其进行识别,显著降低了计算成本;Gao 等[16]通过提出分布式人体多位置的传感器数据采集方法,在多位置佩戴传感器进行数据采集,提取了包括均值、标准差、过零率、均方根、谱能量、谱熵等12 种时域和频域特征,此多传感器系统在决策树分类器分类算法上可得到96.4%的整体识别准确率;Hsu 等[17]提出一种可穿戴的惯性传感器网络及其相关活动识别算法,通过采集手腕和脚踝上的加速度计与陀螺仪数据,提出包括均值、平均绝对值、最大值、最小值、偏斜度、谱熵、频率能量等21 种时域与频域特征,再通过非参数加权特征提取算法和主成分分析法降低特征维数,最终在识别10 种日常家庭活动和11 种体育活动数据集上分别得到98.2%和99.5%的识别准确率。

以往基于惯性传感器的人体活动识别方法需要丰富的先验知识以提取足够的特征向量,特征向量的维数加大了计算成本。为此,本文提出一种基于相空间重构的轻量级活动识别算法,降低特征提取复杂度,并结合Xgboost 分类器进行活动识别。为验证算法的有效性与鲁棒性,选取UCI HAR 数据集与ADL 数据集进行测试。本研究的主要贡献包括:①提出一种基于相空间重构的轻量级活动识别算法,降低特征提取步骤计算成本;②结合特征降维算法进一步降低特征维度,提高整体系统识别精度;③与Xg⁃boost 分类器相结合,在两种公开数据集上得到了稳定的活动识别精度。

1 基于相空间重构的轻量级活动识别算法

1.1 基本框架

人体活动识别主要分为数据采集与预处理、特征提取与选择、分类器训练以及测试等阶段[18]。传统的人体活动识别方法通常需要提取活动数据的时域特征、频域特征以及时频特征等,这几类特征提取方法需要实验者具有丰富的先验知识,并且往往需要提取多种特征才能达到较好的识别结果,较高的特征矩阵维度增加了分类器的训练难度。为克服复杂的特征提取问题,本文提取基于相空间重构的轻量级活动识别算法,通过简单的单轴加速度数据的相空间重构与降维,能够有效地进行活动识别。其主要步骤包括加速度数据预处理、Z 轴加速度数据相空间重构特征提取、相空间重构特征降维以及Xgboost 分类器训练与测试[19]。

Fig.1 Flow of lightweight activity recognition algorithm based on phase space reconstruction图1 基于相空间重构的轻量级活动识别算法流程

1.2 数据采集与预处理

为验证本文算法有效性,采用公开活动识别数据集ADL[20]及机器学习公开人体活动识别数据集UCI[21]。其中,数据集ADL 来自于在真实自然条件下对15 名志愿者(8个男生,7 个女生)8 种活动的数据采集,分别包括上楼梯、下楼梯、跳、躺、站、坐、跑以及行走,文中选取腰部三轴加速度计采集数据进行研究。公开人体活动识别数据集UCI采集了30 位年龄在19~48 岁志愿者的6 种活动数据,分别包括上楼梯、下楼梯、坐、站、躺以及行走。采集的数据来自于固定在腰部的智能手机,本文选取手机中加速度传感器数据进行研究,数据集的采样速率为50HZ,可用于表征人体日常活动频率。为降低特征提取维度实现轻量级活动识别,选取单轴加速度数据进行活动识别,为有效识别静态活动(躺、坐、站),绘制静态活动三轴加速度数据。由图2 可以看出,对于不同静态活动类型的三轴加速度数据,z 轴的加速度数据更具区分度,因此选取z 轴加速度数据进行活动识别。将数据集采用1.5s 的滑动窗口大小进行分割,窗口重合率为50%,其中数据集的70%用作分类器训练,30%用作分类器测试。

1.3 加速度数据相空间重构

对于时间序列的分析和建模一般从统计学角度出发,这种方法的前提是自然界中随机性占主导地位。随着非线性系统理论的发展,产生了一种关于时间序列的动态系统分析方法,该方法描述了一个系统的时间演化以捕获系统动态。相位空间表示系统随时间演化的所有可能状态,通过对序列的相空间重构可以从时间序列的观测值中捕捉到系统的底层动态。相位空间重构法不仅可以重构动态系统的非线性动态方程,而且可以将时间序列的特征与该序列系统的内在机理联系起来,从系统内部动力学系统中寻找时间序列的特征[22-23]。

Fig.2 Acceleration data of lying down,sitting and standing(data set ADL)图2 躺、坐、站(数据集ADL)加速度数据

相空间重构理论于1981 被提出,对于给定的时间序列x,有:

其中,n为下标索引,N为序列的长度。对该系统根据相空间重构理论进行延迟嵌入:

其中,τ为时间延迟,d为嵌入维数,通过时延嵌入重构系统的状态与动态。Takens 定理证明,如果嵌入维数d≥2d'+1,d'为系统动力学维数,则重构的动力系统与原动力系统在拓扑意义上等价。

1.3.1 嵌入维数d与时间延迟τ

对于嵌入维数d与时间延迟τ的选取,主要分为两种观点:一种是两个参数选取互不相关,如求取时间延迟的自相关法,求取嵌入维数的FNN(Flase Nearest Neighbors)法等;另一种认为两个参数相关,如c-c法等。本文采用第一种方法,使用自相关法求取时间延迟,使用虚假最近邻法求取嵌入维数。

(1)自相关系数法。自相关系数法的原理是提取序列之间的线性相关性,对于混沌序列x(1),x(2),…,x(n),其相关函数为:

当自相关函数下降到初始值R(0) 的1-e-1时,即R(τ)=(1-e-1)R(0),所得到的时间τ为重构相空间的延迟时间。

(2)虚假最近邻法。混沌时间序列是高维相空间混沌运动的轨迹在一维空间的投影,当高维相空间被投影后,原本不相邻的两个点在一维空间有可能变为相邻的两个点,也称作虚假邻点。当嵌入维数逐渐增大,混沌运动的轨迹会被打开,虚假邻点被逐渐剔除,从而整个混沌运动轨迹得到恢复。在d维相空间中,对于每一个矢量:

都有一个欧几里得距离的最邻近点xk(d),(k≠i,1 ≤k≤n-(d-1)τ),二者的距离是:

当相空间维数增加,二者的距离变为Di(d+1)。

当Di(d+1)比Di(d)大很多时,认为xk(d)是xi(d)的虚假最近邻点。对于实际的混沌时间序列,当嵌入维数从2逐渐增加,计算虚假最近邻点的比例,当虚假最近邻点的比例小于5%或者不再随着嵌入维数d的增加而减少时,认为此时的d为最佳嵌入维数。

1.3.2 Z 轴加速度数据相空间重构

将活动数据集ADL 与活动数据集UCI 的Z 轴加速度数据进行相空间重构,使用自相关系数法进行时延估算。图3 表示各动态活动(除去躺、坐、站3 类静态活动)时延的统计,取各活动时延统计的平均值3 作为时间延迟。

Fig.3 Time delay calculated by autocorrelation coefficient method图3 自相关系数法计算时间延迟

将时延3 作为各类活动的时间延迟,使用虚假最近邻法计算各活动的嵌入维数,图4 表示5 类活动(除去躺、坐、站3 类静态活动)嵌入维数的计算结果,综合结果取各类活动嵌入维数的平均值为6。

对分割后的Z 轴加速度数据进行相空间重构可得特征矩阵F60×6,为降低特征矩阵维度,取特征矩阵行向量的均值作为特征向量F'60x1。

Fig.4 Calculation of embedded dimension by false nearest neighbor method图4 虚假最近邻法计算嵌入维数

1.4 特征矩阵降维

为降低特征向量的维度与强化特征向量的分类性能,本文采用核Fisher 判决分析进行特征向量降维,核Fisher判别分析法通过非线性映射,将原始输入数据映射到高维空间中,在高维特征空间进行线性Fisher 判别分析,实现相对于输入空间的非线性判决分析[24-25]。高位特征空间解决的问题为:

由于高维特征空间维度较高而无法直接求解问题,故高维特征空间引入核函数RBF 求解问题。

求取原特征数据在最佳投影方向上的投影为降维后的特征向量。

1.5 XGBoost 分类器

1.5.1 CART 分类树

CART 分类器是一种广泛流行的决策树模型,它通常被用作梯度增强树的基分类器。CART 分类树算法使用基尼系数选择最优特征,同时决定该特征的最优切分点。

假设样本空间D,其中xi代表第i个样本的特征向量,yi代表第i个样本类别。

其中,xi=(xi1,xi2,…,xim),xij代表第i个样本的第j个特征。

一棵回归树可将样本空间划分为K 个空间,每个空间对应一个输出值ck,因此回归树模型可以表示为:

当x∈Rk时,I(x∈Rk)=1,反之I(x∈Rk)=0。

当选择特征j作为分割变量,分割点为s,则分割后两部分表示为:

为了寻找j与s,需要满足式(4)的要求:

其中,c1为空间R1的样本输出均值,c2为空间R2的样本输出均值。

遍历样本所有输入变量,找到最优的分割变量j,根据变量(j,s)将输入空间分成两个区域,然后对每个区域重复分割过程,直到满足停止条件。

1.5.2 XGBoost 原理

基于决策树的增强方法称为增强树,XGBoost 模型是一种有效的CART 树模型增强方法[26]。对于给定的数据集D,增强树模型使用k个树模型函数之和预测输出。

其中,F={f(x)=wq(x)}(q:Rm→T,w∈RT)代表回归树空间;q代表将样本映射到相应叶索引的每棵树的结构;T是树上叶子的数量;每一个fk对应一个独立的树结构q(x)与叶权重w。与决策树不同,每个回归树在每个叶子上都包含一个连续的分数,用wi表示第i个叶子上的分数。

传统增强树模型学习目标函数为obj。

obj的前半部分为衡量预测值与标签值yi之间误差的可微分凸损失函数l,后半部分为衡量模型复杂性函数Ω。正则化项有助于平滑最终学习权重,以避免过度拟合。Xgboost 算法的目标是比RGF 算法更简单,更易于并行化。

Xgboost 算法使用加法训练方法更新预测函数,更新判决条件为优化目标函数的程度。如式(7)所示,初始化预测初值为,预测函数更新过程为:

定义第t轮的预测函数为,其目标函数为obj(t)。

当损失函数为平方损失函数时,有:

对目标函数进行泰勒级数展开可得:

去除常数项,目标函数为:

使用叶子的分数向量定义树函数,通过叶中的分数向量定义树,并使用叶索引映射函数将实例映射到叶。

定义复杂性衡量函数为:

其中,函数前半部分代表叶子个数,后半部分代表叶子分数的L2 正则化。

定义叶子节点j中的样本集为Ij={i|q(xi)=j},将树函数与复杂性衡量函数代入目标函数中得:

假设树的结构固定,则每个叶子的最优权值与目标函数obj为:

为得到最优树的结构,将树的叶子分裂后的增益函数定义为:

当得到负增益或者得到最大树的深度,则停止分裂叶子。

Xgboost 算法可防止过拟合、支持并行化并提升分类器训练速度,适合轻量级活动识别算法,极大提升了分类器的有效性与分类速度。

2 实验结果及分析

2.1 实验设置

实验中分别将ADL 数据集与UCI 活动识别数据集划分为70%的训练数据集和30%的测试数据集,基于两类数据集进行以下实验以验证算法有效性:①将所有实验者活动数据混合,并划分为训练数据集与测试数据集以验证算法有效性;②剔除一位实验者活动数据,将其作为测试数据集,其余实验者活动数据为训练数据集以验证算法有效性;③比较不同分类器算法的性能与本文Xgboost算法作比较。

2.2 评价指标

本文采用下列指标进行评估,正确率为分类正确的样本数占样本总数的比例,查准率P 为TP/(TP+FP),查全率R为TP/(TP+FN)。F1 度量为2 *P *R/(P+R)。

Table 1 Classification result confusion matrix表1 分类结果混淆矩阵

2.3 结果及分析

2.3.1 实验者数据混合验证

将ADL 活动数据集与UCI 活动识别数据集所有实验者的活动采集数据进行训练数据集与测试数据集划分,根据混淆矩阵以及正确率、查准率、查全率和F1 值验证算法有效性。

表2 体现了ADL 活动数据集在实验者活动数据混合情况下训练分类器的测试性能,相空间重构特征提取算法在ADL 活动数据集的测试数据集上得到了94.96%的正确率。其中,下楼梯、上楼梯、躺、行走4 类活动能够很好地被识别,F1 值分别为1.00、0.99、1.00、0.99,并且从图5 的混淆矩阵可以看出该4 类活动的正确率为100%、98%、100%、100%。从混淆矩阵中可以看出,跑与跳两类活动的识别结果最差,分别为88%与85%,其中跳与跑易相互混淆,分析其原因为在相空间重构后,由于相空间重构提取特征后仍为原始时间序列数据,而其跳与跑在原始时间序列数据幅值范围十分相似,固其二者容易混淆。

Table 2 ADL dataset mixed recognition results of experimenter activity data表2 ADL 数据集实验者活动数据混合识别结果

表3 体现了UCI 活动数据集在实验者活动数据混合情况下训练分类器后的测试性能,相空间重构特征提取算法在UCI 活动数据集的测试数据集上得到了92.66%的正确率。同样对于下楼梯、上楼梯、躺、行走4 类识别结果较好,其F1 值分别为0.98、0.98、0.92、1.00,正确率分别为96%、100%、95%、100%。同时,从混淆矩阵可以看出,坐与站两类活动识别结果较差,仅有84%与82%的正确率,且二者容易相互混淆。

Fig.5 Confounding matrix of mixed identification of active data of ADL active dataset图5 ADL 活动数据集实验者活动数据混合识别混淆矩阵

Table 3 UCI activity dataset experimenter activity data mixed identificution results表3 UCI 活动数据集实验者活动数据混合识别结果

Fig.6 Confounding matrix of mixed identification of active data of UCI active dataset experimenter图6 UCI 活动数据集实验者活动数据混合识别混淆矩阵

2.3.2 实验者数据独立验证

为验证算法泛化能力,将ADL 活动数据集与UCI 活动数据集中的一位实验者采集的活动数据提取出作为测试数据,其余实验者采集数据作为训练数据,根据混淆矩阵以及正确率、查准率、查全率和F1 值验证算法泛化能力。

表4 体现了ADL 活动数据集实验者数据独立下本文算法的识别性能,可以看出在测试数据不参与训练分类器情况下,在ADL 活动数据集仍能达到平均查准率、查全率、F1值的3 个性能指标为0.92、0.91、0.91,下楼梯、上楼梯、躺、跑、行走几类活动仍可达到90%以上的正确率,并且整体可达到91.16%的正确率。表5 体现了UCI 活动数据集独立实验者数据的识别结果,可看出下楼梯、上楼梯、行走3 类活动的查准率、查全率、F1 值3 个指标接近1.00,且从其混淆矩阵中可以看出3 类活动具有100%的正确率,总体正确率达93.08%。

Table 4 ADL dataset independent recognition results of experimenter data表4 ADL 数据集实验者数据独立识别结果

Table 5 UCL activity dataset independent recognition results of experimenter data表5 UCI 活动数据集实验者数据独立识别结果

2.3.3 分类算法比较

对常用分类算法在相同特征集下的性能进行比较,选择常用分类算法KNN、SVM、BP 神经网络与本文算法Xg⁃boost 进行分类性能比较如表6 所示。其中,KNN、SVM、BP神经网络正确率达90%、90%、81%,F1 值达0.89、0.91、0.75,而本文使用算法Xgboost 达到了94%的正确率,F1 值为0.94,性能优于上述3 种分类算法。Xgboost 作为传统分类树算法的增强算法,分类性能优于传统分类算法,适合用于具有相似特征的活动识别任务。

Table 6 Comparison of classification algorithms表6 分类算法比较

3 结语

本文提出了一种基于可穿戴传感器的轻量级活动识别算法,该算法由相空间重构特征提取和核Fisher 判别分析特征降维方法以及Xgboost 识别器组成,分别用于HCI HAR 和ADL 公开活动数据集。该活动识别算法由运动信号采集、信号预处理、相空间重构特征提取、核Fisher 判别分析特征降维和Xgboost 识别器组成,从放置于腰部的单加速度计传感器提取相空间重构后的共60 维时域特征用于人物日常活动识别。此外,通过核Fisher 判别分析特征降维方法将60 维特征进一步缩减,以减少计算成本并提高日常活动识别准确率。通过对UCI HAR 和ADL 公开活动数据集的6 类和8 类日常活动数据进行验证,可以分别获得93%和94%的整体识别率。基于上述实验结果,本文提出的基于相空间重构的轻量级活动识别算法的有效性与鲁棒性得到了验证。接下来的研究将扩展到更多种类的活动识别以及进一步提升整体系统识别精度上。

猜你喜欢

实验者相空间维数
β-变换中一致丢番图逼近问题的维数理论
束团相空间分布重建技术在西安200 MeV质子应用装置的应用
一类齐次Moran集的上盒维数
探讨消毒供应室护理人员职业倦怠情况及对应的措施
喉气管狭窄外科治疗效果的分析
关于齐次Moran集的packing维数结果
非对易空间中的三维谐振子Wigner函数
涉及相变问题Julia集的Hausdorff维数
学不会珍惜
基于相空间重构的电磁继电器电性能参数预测研究