APP下载

融合多标签特征在心电异常事件分类上的应用

2022-09-28杨小童陈月明

计算机仿真 2022年8期
关键词:心电电信号卷积

杨小童,陈月明,杨 坤

(安徽医科大学生物医学工程学院,安徽合肥 230032)

1 引言

据国家心血管病中心组织编撰的《中国心血管病报告2018》显示,中国心血管病患病率及死亡率仍处于上升阶段,现有心血管病患者约有2.9亿,占居民的疾病死亡构成的40%以上[1]。因此实现心血管疾病的检测和防治显得尤为重要。

心电图能测量和记录心脏的电活动,因其有效、简单、无创、成本低而被广泛应用于心血管疾病的诊断[2]。传统的方法首先利用离散小波变换和Pan Tompkins算法等不同技术从ECG记录中提取各种特征,然后采用支持向量机(SVM)[3]、随机森林[4]等分类方法进行分类。因此,这些方法最关键问题在于特征的提取。目前已经有多种方法提取详细的心电特征,如时域信息、高阶统计、隐马尔科夫建模等。但是,这些方法严重依赖于精心选择的特性,因此使用这些方法很难处理多类分类任务。近些年来,随着深度学习[5]在疾病诊断展现出强大的性能,应用深度学习在心电异常事件分析已经成为医学领域的一个研究热点。 Ozal Yildirim[6]提出一种新的基于深度双向LSTM网络的小波序列模型DBLSTM-WS用于心电信号分类,使用小波将心电信号分解成不同尺度的子频带作为输入,实现了对五种心电异常事件的准确分类,小波网络层的存在显著提高了传统网络的识别性能。吴恩达等人[7]使用改进的34层残差网络模型进行12种心电异常事件检测,神经网络模型在测试集上的预测准确率表现甚至超过了6位心脏病专家。

然而,这些方法将多种心血管疾病的识别视为多类分类问题,其中多种异常被视为互斥类。

但在实际临床中,并发多种心律失常是常见的。ML-KNN算法和LIFT算法[8]可以解决多标签分类问题,但是没有考虑标签之间可能存在的相关性。因此,需要进一步识别标签之间的相关性,而不是单独处理每个标签。此外,目前在心电异常分析领域大多使用单导联或双导联心电信号,未能有效利用多导联心电信号的结构信息。如李全池[9]、束伟伟[10]等的研究。

针对上述问题,本文提出了一种融合多标签相关性特征的神经网络心电异常识别方法。利用点互信息、皮尔逊相关系数、余弦相似度将心电数据集的标签转化为标签相关性矩阵,使用卷积神经网络对标签相关性矩阵进行特征提取。从标签相关性的角度增加多标签心电异常信号提取的特征数量。根据多导联心电信号的结构特征,使用逐通道卷积对各导联信号提取标签特征,从而减少参数量与计算量。

2 数据预处理

2.1 实验数据

实验使用的数据是天池杯“合肥高新杯”心电人机智能大赛的数据集,以此来验证融合多标签特征的神经网络心电异常识别算法的有效性。实验数据集概况如下表1所示。

表1 实验数据集概况

表1表示实验数据集的基本信息,其中T表示样本总数,L1表示样本标签总数,L2 表示标签类别总数,VA表示数据集的平均标签数,VS表示样本最少标签数,VB表示样本最多标签数。

图1 心电波形

每个样本有8个导联数据,分别是I,II,V1,V2,V3,V4,V5和V6,同步采集10秒的心电波形,采样频率为500 Hz,单位电压为4.88mV。每导联有5000个采样点,故样本由[5000,8]的二维矩阵构成。

1)本文将24106份数据随机打乱后,采用5折交叉验证。将原始数据分成5组,将每个子集数据分别做一次验证集,其余4组子集数据作为训练集,用5个模型最终在验证集上的分类准确率的平均值作为5折交叉验证的性能指标。

2)为了对心电信号异常判断更加全面,将8导联数据拓展至12导联。新增的4导联数据可由式(1)~(4)计算得到。

III=II-I

(1)

aVR=-(I+II)/2

(2)

aVL=I-II/2

(3)

aVF=II-I/2

(4)

2.2 心电信号降噪处理

心电信号采集过程中通常会受到电力线干扰、基线漂移、电极运动伪影、仪器等干扰,因此必须去除心电信号的噪声[11]。原始心电信号的波形图2所示,心电信号的能量主要集中在0.1-35Hz,是一种低频信号,其中占频谱最大分量的是QRS波群,汇集在5-15Hz处。

1)小波软阈值降噪。原始心电信号存在一定的噪声。由于频带重叠,无法使用传统的傅里叶变换去除,而小波变换在非平稳信号的时频域分析上具有十分显著的效果。选择db8小波将含噪音的心电信号进行8层小波变换分解。使用极大极小阈值和使小波系数整体连续性较好的软阈值函数进行滤波,最后将处理后的各尺度系数进行重构得到降噪后的心电信号,重构的信号如图3所示。

2)为了加快神经网络模型收敛,使用Z-score方法将心电信号进行归一化处理。

图2 原始信号

图3 小波降噪后的心电信号

3 传统特征提取和标签相关性矩阵

3.1 传统特征提取

为了避免干扰对心电信号造成的影响,本文使用预处理后的信号进行8尺度小波变换后,采用4尺度的细节信号对 R波峰值点定位及QRS波的检测。

1)R波峰值点。4尺度小波系数中的12个正极值是R波峰值点。为了保证数据的准确性,本实验中R波峰的取值点去掉12个正极值的第一个和最后一个。

2)心拍划分。心电数据采样频率为500Hz,以心率为60~100次/分钟为准,则一个心拍的采样点数在300-500之间。使用R波峰分割心拍,1)中得到的10个R波峰值点的幅值的中值作为基点,R波峰向前200个采样点,R波向后250个采样点,将这450个采样点的数据截取出来,作为一个心拍样本,则单个导联有10个心拍。

3)其它特征值提取。在划分的心拍中使用差分阈值法检测QRS波群、P波、T波等。再通过交叉计算,得到相应的特征。本文需要计算的传统特征值有P、Q、R、S、T幅值,RR、PR、PJ、QT、QRS、ST、PP间期值。具体各传统特征值在心电图上的表示如图4所示。

图4 心电传统特征值表示

3.2 标签相关性矩阵

根据数据的潜在特征设计对应的数学模型能够有效地提高模型的性能,为了将多标签之间的关联性融入模型中,必须衡量不同标签之间的关联性。

图5是各样本标签之间的关系图,横、纵坐标均为各心电异常类别,颜色越深代表标签之间的相关性越强。从图3中可得出对应多个心电异常事件的同一段心电信号,不同的心电异常事件之间存在一定的关联性。因此,患有某种心血管疾病的患者往往有很大可能同时患有另一种心血管疾病。

图5 心电异常相关性

本文使用了点互信息(PMI)、皮尔逊相关系数、余弦相似度评估两两标签之间的相似度。

1)点互信息

PMI从统计的角度发现词语共现的情况,从而分析出词语间是否存在语义相关或者主题相关的情况。本文使用PMI计算两两标签之间的关联程度。PMI>0,两统计量是相关的;值越大,相关性越强;PMI<0,两统计量是不相关的,互斥的;PMI=0,两统计量独立,不相关也不互斥。PMI计算方法如式(5)所示。

(5)

其中p(x)表示标签x出现的概率,p(y)表示标签y出现的概率,p(x,y)表示标签x和标签y共同出现的概率。

2)皮尔逊相关系数

皮尔逊相关系数用于度量两个向量组之间的关联性,皮尔逊系数介于-1和1 之间,-1、0、1分别表示完全负相关,不相关和完全正相关。皮尔逊系数的计算方法如式(6)所示。

(6)

3)余弦相似度

余弦相关度是指两个向量之间夹角的余弦值,可以衡量两个向量之间的差异,余弦相似度的计算方法如式(7)所示

(7)

其中,x,y表示两个标签,·表示点积,表示向量x的L2范数。

类别标签向量使用one-hot编码,得样本标签矩阵LT*55,T表示样本总数,分别计算某一列与其它列之间的PMI、皮尔逊系数和余弦相似度,可以得到的标签相关性矩阵S55*55。

图6 多标签相关性矩阵

4 神经网络模型搭建与训练

4.1 神经网络模型

多标签分类问题与单一标签问题区别在于训练样本存在一个或者多个标签,假设X=d表示输入样本有d维特征空间,Y={y1,y2,…,yq}表示所有类别标签集合,共有q个类别标签。通过训练集D={(xi,Yi)|1≤i≤n}训练样本得到分类器f:X→2Y,其中xi∈X是输入空间X的训练样本,Yi∈Y是xi的类别标签集合,最终通过分类器f得到测试样本的所属标签集合[12]。

融合多标签特征在心电异常预测模型如图7所示。心电异常预测模型主要分为输入层,特征提取层,特征拼接层,全连接层和sigmod分类器。输入层包含四个部分,分别为心电信号传统特征,降噪后的原始心电信号,数据集的标签特征,样本的年龄、性别个体特征。通过卷积神经网络和长短时记忆网络将特征提取输出到特征拼接层,在特征拼接层将所有的特征融合起来,经过全连接网络输出到sigmod分类器,可以得到关于心电信号和心电异常的关系映射。

图7 心电异常预测模型

4.1.1 卷积神经网络

卷积神经网络可以提取心电信号的局部特征。相对于全连接网络而言,卷积神经网络减少了训练过程中的参数量,一定程度上也避免模型过拟合。本文使用多个大小不同的卷积核对心电信号进行特征提取,可以得到多个大小不同的特征向量,可以对多导联心电信号进行特征表示。

池化层对卷积层特征进行采样,降低特征数量,进一步降低参数数量,本文提出的模型选用最大池化操作,通过对局部区域取最大值对数据进行压缩。

考虑各导联结构的相似性,本文在使用CNN提取心电特征时,方法如下:

1)提取各导联心电特征。结合深度可分离卷积中的逐通道卷积思想,卷积层使用相同的卷积核,一个卷积核负责一个通道,一个通道只被一个卷积核卷积,如图8左侧部分所示。将12导联视为12通道,每一通道分别使用相同的卷积核和池化方法进行操作,最后输出12张特征图。

2)12导联心电特征融合。结合二维卷积多通道卷积思想,使用1*1*12的卷积核对 1)中输出的12张特征图做卷积操作,最终输出一张特征图,如图8右侧部分所示。

图8 神经网络结构图

4.1.2 长短时记忆网络

LSTM可以提取心电信号的时序特征,是一种改进之后的循环神经网络,相对于RNN,LSTM的神经元加入了输入门i、遗忘门f、输出门o和内部记忆单元c,这些部分共同控制神经元的输出h的设计,使得整个网络更好地把握序列信息之间的关系[13]。

图9 LSTM神经元结构图

4.1.3 超参数设置

1)损失函数。从表1可以看出,实验使用的数据集存在严重的样本分布不均衡的问题。部分类别的样本数量极少,模型在训练的过程中很难提取规律。且即使得到分类模型,也容易因过度依赖有限样本而产生过拟合,当样本应用到新数据上时,模型的准确性和鲁棒性将会很差。因此根据每一类标签的样本数量,在损失函数BCELoss中对不同标签进行加权求损失值,能够有效的解决样本分布不均衡的问题。样本标签的损失值权重计算方法如式(8)所示,加入权重后的损失函数计算方式如(9)所示。样本数量越大的标签损失值对应的权重越小。

wi=1/(log(ci+1))

(8)

(1-y′i)*log(1-yi)]

(9)

2)激活函数。通过特征融合的方式可以同时利用不同神经网络的各自特点,获得不同层次上的心电信息特征,提高分类效果。本文采用合并拼接的融合方式形成包含信息丰富的特征向量,最后使用sigmod分类器,sigmod分类器计算公式如式(10)所示。

F(M)=1/(1+e-M)

(10)

函数返回向量M属于各个类别标签的概率,概率值在[0,1]之间,本实验选取的阈值为0.5,如果标签的概率大于0.5,则认为属于该类别。

4.2 模型参数设置

本实验搭建的神经网络模型结构参数如表2所示。为了避免神经网络过拟合的问题,在神经网络中加入丢弃层(Dropout),丢弃概率P设置为0.5时。除此之外,还增加了BN(Batch Normalization)层。BN层对每一层网络的输出做归一化处理,使其服从标准的正态分布,可以阻止网络中每一层的输入分布发生改变。

表2 模型结构参数

4.3 模型训练

本文使用pytorch1.0 框架。通过多次实验,选择最优的实验参数。选择Adam优化器优化神经网络,学习率为 1e-3;设置迭代次数为1000次,批大小设置为256,使用提前停止的方法训练神经网络。

5 模型评估

5.1 模型评价标准

本文使用四个性能评价指标衡量模型训练的结果,分别是精准率P、召回率R、F1 值,汉明损失HL,计算方法如式(11)~(14)所示。

(11)

(12)

(13)

(14)

其中,TP表示真正例,FP表示假正例,FN表示假负例,|D|表示样本总数,|L|表示标签总数,xi和yi分别表示真实标签和预测的标签结果,xor表示异或运算。在P、R、F1、HL四个评价指标中,P、R、F1 值越大,模型性能越好,HL值越小,模型性能越好。

5.2 实验结果与讨论

本实验的基线模型设计为仅使用神经网络从传统特征提取特征的模型(T-NN)。

1)为了验证神经网络从全部心电信号提取的特征对心电异常事件预测的有效性,设计加入CNN和LSTM并行模型提取的特征(T-AN)实验。

2)为了验证多标签相关性特征对心电异常事件预测的有效性,设计加入PMI多标签特征(T-AM),加入皮尔逊系数多标签特征(T-AP),加入余弦多标签特征(T-AC)三组实验。

1)和 2)实验结果如表3所示。

表3 实验结果1

3)通过表3可知,模型中融合神经网络从全部心电信号提取特征和多标签相关性特征均提高了心电异常事件预测的正确性。因此设计神经网络从全部心电信号提取特征模型分别和加入PMI的多标签特征(T-AN-AM),加入皮尔逊系数的多标签特征(T-AN-AP),加入余弦多标签特征(T-AN-AC)三组实验。实验结果如表4所示。

表4 实验结果2

上述实验结果表明,将神经网络从全部心电信号提取的特征和多标签相关性特征加入到模型中,均可以提高心电异常事件预测的准确性,F1值分别提升至87.60和90.45,比基线模型(T-NN)分别提升2.12%和4.98%。其中本文提出的融合神经网络特征和多标签特征的模型(T-AN-AC)在四个评价指标上性能最好,F1最高达到91.64,比基线模型(T-NN)提升了6.17%。

对T-AN-AC模型的实验结果进行进一步分析,比较了数据集中不同类别的F1值差异,如图10所示。纵轴表示测试集中每个类别标签的分类效果,横轴表示类别标签。

图10 各心电异常F1值

6 总结

1)本文对多标签的心电异常事件建模方法进行了深入的研究。使用小波变换实现心电信号特征点定位和波形检测。相比较基于传统特征的心电异常分类器准确率有了明显的提升。

2)相比较其它工作的研究,本模型并未采用深度神经网络采用深度残差神经网络等方法,依靠增加网络深度和参数数量来提升模型性能,而是从心电数据的内在特征出发,设计出符合心电特征的神经网络模型。本模型极大降低了参数数量和训练时间,并且具有较高的分类准确性,分类的精准率、召回率、F1和汉明损失分别达到92.12、91.16、91.64、0.0192。

3)然而并未深入研究心电异常事件背后的致病机理与心电波形的关系,在后续研究中,会对心电异常事件预测病理进行研究,并与心电信号的波形结合起来,选择与疾病相关度更高的心电特征,研究其中的内在联系。

猜你喜欢

心电电信号卷积
基于融合模糊聚类算法的异常心电多频段弱信号快速捕捉方法
基于全卷积神经网络的猪背膘厚快速准确测定
基于图像处理与卷积神经网络的零件识别
基于单片机的心电信号采集系统设计
基于深度卷积网络与空洞卷积融合的人群计数
卡片式智能心电采集仪
神经元电生理模型的构建及分析
“声名大噪”的跑步神器?
机电工程中存在问题之我见
卷积神经网络概述