APP下载

主成分分析和线性判别分析应用于心电信号特征提取和诊断算法研究*

2019-07-31李鸿强魏小清王有玺张振宫正吴非凡

生物医学工程研究 2019年2期
关键词:降维电信号心电

李鸿强,魏小清,王有玺,张振,宫正,吴非凡

(1.天津市光电检测技术与系统重点实验室,天津300387;2.天津工业大学电子与信息工程学院,天津300387;3.天津工业大学计算机科学与软件学院,天津300387)

1 引 言

心血管疾病是目前人类疾病中发病率和死亡率最高的疾病之一,已经严重威胁了人们的生命健康。心电监护系统能够直观的监测心脏的电活动并进行疾病反馈,因而,心电监护系统中心电类型的自动检测和分类成为了研究的重点。进行心电信号的检测时极易受到噪声信号的干扰,因而需要对心电信号进行预处理。Venkatesan[1]等通过自适应滤波器对心电信号进行去噪,Phukpattaranont[2]利用双频带连续小波变换对心电信号进行去噪,Rakshit[3]等利用经验模式分解和自适应切换均值滤波器对心电信号进行滤波,从而有效地提高输出心电信号的信噪比。

目前常用的心电信号特征提取方法主要包括非线性变换方法和线性变换方法[4]。Ye[5]等利用小波变换和独立成分分析提取心电信号RR间期作为特征,并利用支持向量机将16类心电信号分为5大类,分类准确度为86.4%。Kumar[6]等人利用离散小波变换对心电信号进行去噪和提取,采用邻域粗糙集对5类心电信号分类,准确度为99.32%。Moon[7]等人提出高阶统计特征的支持向量机分类模型,利用心电信号的方差、偏度和峰值作为特征,对4类心电信号进行分类,准确度为98.8%。

在心电信号的识别和分类上已经有很多研究成果,但仍然有待提高的地方。在本研究中,先对心电信号进行提升小波变换和改进半软阈值相结合的预处理,去除心电信号的噪声。然后利用PCA对信号进行降维处理,再利用核独立成分分析(kernel independent component analysis,KICA)提取心电信号的非线性特征,利用离散小波变换(discrete wavelet transformation,DWT)提取心电信号的频域特征,再利用LDA对频域特征进行降维,将降维后的特征组成多域特征空间。最后采用LIBSVM对多域特征分类,遗传算法(genetic algorithm,GA)对 LIBSVM 的参数进行寻优。在本研究中,所采用的心电数据均来源于MIT-BIH数据库,所分类的心电类型为正常心跳(N)、左束支阻滞搏动(LBBB)、右束支阻滞搏动(RBBB)、室性早搏(PVC)和房性早搏(PAC)。

2 心电信号非线性特征的构建

2.1 PCA的特征降维

PCA[8]是一种常用的数据分析方法,本研究利用PCA对心电信号进行降维提取其主成分,具体过程为:

(1)设心电样本为n维向量,总样本数为m,全部样本组成样本矩阵为X=[x1,x2,…,xm],则总样本平均值为:

由均值求得样本矩阵的协方差矩阵为:

(2)求解样本协方差矩阵的特征值λi和特征向量,根据特征值计算协方差矩阵的贡献率。样本协方差矩阵C第i列向量的贡献率和前j列矩阵的累计贡献率分别是:

(3)将特征向量按对应特征值的大小从上到下按行排列成矩阵,设定降维的维数k,取前k行组成矩阵P。

(4)Y为降维后的数据组,求取公式为:

本研究提取5类心电信号的18个数据编号,每个编号各选取100个样本,每个样本取R峰前后共250个数据点。将得到的1 800个样本平均分为测试集和训练集,不同类型心电信号样本的采样来源及采样数目见表1。

表1 不同类型的心电信号样本的采样来源及采样数目Table 1 Sampling sources and number of different types′ECG signals

提取的心电数据样本构成1800×250的初始特征矩阵。采用PCA对特征矩阵进行降维,根据贡献率依次选取样本协方差矩阵C前20个最大特征值,见表2,将特征值对应的特征向量对矩阵C进行白化处理,得到的白化矩阵投影到原始心电数据矩阵中,即得到降维后的20维心电数据矩阵。

表2 协方差矩阵C所对应的特征值、贡献率和累计贡献率Table 2 Characteristic values,contribution rates and cumulative contribution rates corresponding to the covariance matrix C

2.2 KICA提取非线性特征矩阵

心电信号非线性特征的求解过程为:给定已知的x(t)=[x1(t),x2(t),…,xn(t)]T,存在一组m维未知信号s(t)=[s1(t),s2(t),…,sm(t)]T,s(t)经线性混合能够构成x(t),A是一个n×m维的未知混合矩阵,ICA简化线性数学模型可以表示为:

A为未知的混合矩阵,W为某种线性变换,以解混矩阵W为基础,利用已知观测信号x(t)来求解未知源信号s(t),观测矩阵x(t)经过W变换求解得到源信号s(t)的估计值y(t)。通过学习使得WA=I,I为单位矩阵,实现y(t)=WAs(t)=s(t),从而恢复源信号。在噪声不计的情况下,ICA实现的具体原理见图1,ICA的解混模型为:

通过KICA非线性变换提取得到解混矩阵后,心电信号统计独立的基信号为Si=Wxi,不同的基信号Si组成特征子空间S,由独立的基信号通过不同线性组合的心电信号xi为:

图1 独立成分分析的原理结构Fig 1 Principle structure of independent component analysis

将通过PCA降维的20个特征值对应的主成分作为KICA算法的输入矩阵,采用径向基函数作为KICA核函数,根据Francis经验和实验测试令KICA模型的正则化因子Kap=0.02和径向基函数的核宽度δ=1,KICA算法分离得到20个独立的基信号,图2中为正常心电信号的20维非线性特征。

图2 KICA提取的正常心电信号的20维特征Fig 2 20-Dimensional characteristics of normal ECG signals extracted by KICA

3 心电信号频域特征的构建

3.1 离散小波提取频域特征矩阵

本研究采用DWT提取心电信号的频域特征[9]。鉴于db2具有良好的平滑效果,因此选用db2小波作为基函数,通过实验研究进行4尺度的离散小波分解,得到的分解系数即为心电信号的频域特征,选取4个尺度的细节小波系数cd1-cd4和第4尺度的近似系数 ca4作为心电信号的频域特征。图3中为正常信号分解的频域特征。

3.2 LDA特征降维

利用LDA能够对心电信号特征空间进行降维,本研究对心电信号频域特征降维的具体步骤为:

图3 正常心电信号的频域特征Fig 3 Frequency domain characteristics of normal ECG signals

(1)令心电信号为X=[x1,x2,…,xn],其中包括共c类的心电类型,mi表示第i类训练样本的个数,总训练样本为m,则第i类训练样本的均值ui和总样本的均值u分别为:

(2)各类心电信号样本的类间散度矩阵Sb和样本类内散度矩阵Sw分别为:

(3)投影的直线为y=wTx,为了使数据能够更好的分离,需要将样本数据的类间投影点的距离尽可能增大,使类内投影点的距离尽可能缩小,因此引入Fisher准则函数:

为了满足类内距离小、类间距离大,则要使J(w)取最大值,即必须满足Sb w=λSw w,w作为投影方向,即为需要求解的特征向量矩阵。

采用统计学方法计算每类样本每个小波系数的最大值、最小值、平均值和标准偏差,组成新的心电特征,得到20维的频域特征向量,则5类心电信号的统计特征见表3。最后利用LDA将20维的频域特征优化成4维的特征向量。

表3 心电信号的频域统计特征Table 3 Frequency domain statistical characteristics of ECG signals

4 算法实现与性能分析

4.1 分类器方法概述

遗传算法能够在模拟进化过程中寻找全局最优解,本研究采用遗传算法对支持向量机的参数进行搜索寻优,具体流程见图4。支持向量机(support vector machine,SVM)是Corinna Cortes和Vapnik等人在1995年提出的一种二分类模型[10]。在实验中采用林智仁等[11]设计的 LIBSVM作为分类器[12],采用径向基函数作为支持向量机的核函数,通过遗传算法对支持向量机寻优后的惩罚因子C为2.61633,核宽度g为4.16832。

4.2 分类算法的实现

实验从MIT-BIH心电数据库采集的心电信号共1 800组,将采集到的心电信号样本平均分为900组训练集和测试集,将多域特征采用LIBSVM进行训练和测试,测试分类结果见图5。

图4 遗传算法参数寻优的流程图Fig 4 Flow chart of genetic algorithm parameter optimization

图5 LIBSVM 的分类结果图Fig 5 Classification results of LIBSVM

图5中,○代表了实际测试集分类,*代表了预测测试集分类,具体分类结果见表4。横坐标表示测试集的样本,纵坐标表示了分类器的分类结果,由下到上依次为:N、LBBB、RBBB、PVC和 PAC。

表4 LIBSVM 的分类结果统计Table 4 Statistics of classification results of LIBSVM

4.3 算法的性能分析

对测试集中的900组样本进行分类测试,根据ECAR87的标准评估分类器的测试结果,利用真阳性TP、假阴性FN、真阴性TN和假阳性FP的统计结果计算分类器的性能指标,见表5。

表5 心律失常的四类分类结果统计及性能指标Table 5 Statistics and performance indicators of four classification results of arrhythmia

本研究的分类结果与其他文献分类结果的比较见表6。在表中,各文献所使用的分类器均为支持向量机,所分类的心电类型有所差异,但本研究所使用的分类算法的准确度均高于其他文献所使用的分类器,说明本研究提出的方法具有更高的分类准确度。

表6 LIBSVM 分类准确度比较Table 6 Comparison of LIBSVM classification accuracy

5 结论

本研究提出基于PCA和LDA降维的心电信号特征提取和分类诊断的方法,以降低特征空间计算的维数,提高心电诊断的分类效率。所采用的PCA对去噪后的心电信号进行降维,LDA对所提取的频域特征进行降维,共同组成降维后的多域特征空间。最后利用经过遗传算法优化后的LIBSVM分类器,实现了对5类心电信号的分类,分类准确率达99.11%,优于现有研究的分类结果。实验结果表明,本研究提出的算法能够为心电监护系统自动监测和分类心电信号提供技术支持,为将来实现可穿戴心电监护系统提供理论基础和技术保障。

猜你喜欢

降维电信号心电
混动成为降维打击的实力 东风风神皓极
基于联合聚类分析的单通道腹部心电信号的胎心率提取
心电向量图诊断高血压病左心室异常的临床应用
心电医联体建设需求分析及意义
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
降维打击
基于非接触式电极的心电监测系统
穿戴式心电:发展历程、核心技术与未来挑战
基于Code Composer Studio3.3完成对心电信号的去噪
基于随机森林的航天器电信号多分类识别方法