APP下载

机器学习算法构建糖尿病足预测模型的研究进展△

2023-08-03杨启帆杨镇玮

血管与腔内血管外科杂志 2023年4期
关键词:截肢糖尿病足灵敏度

杨启帆,杨镇玮,白 超,罗 军

新疆医科大学第一附属医院血管甲状腺外科,新疆 乌鲁木齐 830054

2型糖尿病(type 2 diabetes mellitus,T2DM)是常见的慢性代谢病,已经成为全球性公共卫生问题,严重威胁人类的健康[1-2]。在中国,2020年估计60岁以上老年糖尿病患者已达到7813万,患病知晓率、诊断率和治疗率均较低[3],导致诸多并发症发生。糖尿病足是糖尿病的严重并发症之一,约25%的糖尿病患者会发生不同程度的糖尿病足溃疡(diabetic foot ulcer,DFU),其中,超过50%的患者会发生感染,20%的患者因中重度感染而截肢,严重影响远期生存率和生活质量[4]。因此,对糖尿病足的早期识别及针对性防治对于促进健康、减少医疗负担等具有重要意义。近年来,随着对医疗大数据认识的不断提升、对临床数据挖掘(data mining,DM)的不断深入,机器学习(machine learning,ML)算法能够对疾病的发生和预后等进行预测[5-7],在影响因素筛选和模型预测效能等方面已得到广泛认可。本文对国内外关于ML算法在糖尿病足诊断和预后预测方面的应用进展进行综述,以期对糖尿病足的预防、诊断及治疗提供借鉴。

1 ML概述

ML是人工智能(artificial intelligence,AI)的一个子领域。自20世纪80年代末至今,ML在预测、推荐、自然语言识别与分类、语音识别、图像和视觉等领域广受关注[8]。ML的发明始于人工神经网络误差反向传播(back propagation,BP)算法,该算法模拟生物体的自然神经网络系统,具有对任意复杂的模式进行分类的能力和优良的多维函数映射能力,可处理复杂的非线性问题[9],从而发挥预测作用。然而,由于多层网络训练困难,在实际使用中最初的算法仅含有一层隐藏层节点[10],故此时ML主要以浅层学习为主。20世纪90年代,各种浅层学习模型被逐步提出。支持向量机(support vector machine,SVM)是一种监督学习算法,可用于回归分析和二分类问题,它减少了经验分类所产生的误差,并增加了裕度,也被称为最大裕度分类器[11]。决策树模拟了树状图结构,通过C4.5、C5.0等算法使用信息增益率进行选择,由根节点开始逐步分类,最终到达最后一层叶节点。决策树可处理连续型或离散性数据,但已被证明可能出现过拟合[12]。随机森林(random forest,RF)算法由多棵决策树构成,最终分类结果取决于生成的各决策树投票结果,对于决策树模型泛化能力弱的问题可较好地解决,总体预测效能较高[13],是近年来较热门的算法,广泛应用于医疗大数据分析领域。朴素贝叶斯模型使用坚实的概率统计原理对数据集进行分类,并将先验概率和后验概率相结合,减少主观偏见和过拟合现象[14],但当变量间相互联系时,它的处理性能较弱,当出现多重共线性等因素时,其分类效果降低。Logistic回归(Logistic regression,LR)、K-近邻算法(K-nearest neighbor,KNN)、Lasso回归等算法,由于隐层节点较少,均被认为属于浅层学习。2006年,Hinton和Salakhutdinov[15]首次将深度学习(deep learning,DL)用于优化神经网络算法,使ML进入DL领域,后续的诸多研究将以卷积神经网络(convolutional neural network,CNN)为代表的DL人工神经网络算法引入医学影像识别和临床预测[16-17]、心电图自动诊断[18]等领域,但目前对糖尿病足的图像识别技术尚处于起步阶段。总体而言,在临床预测模型的研究中,各种ML算法起到了“分类”和“回归”的作用。“分类”是指在有效的数据清洗后,根据输入的变量对结局的影响,从不同ML算法角度对变量进行分类,从而筛选出对结局影响较大的变量。“回归”是指通过ML算法根据筛选出的变量拟合出回归模型,从而对结局进行预测。

2 基于ML算法的糖尿病足预测模型研究现状

2.1 预测糖尿病足的发生

在糖尿病足诊断模型的研究方面,Nanda等[5]选取2019年1—12月就诊的T2DM患者进行了单中心前瞻性队列研究,包括80例糖尿病足患者和80例非糖尿病足患者,通过多种单一分类器和集成分类器构建糖尿病足诊断和DFU严重程度预测模型,结果显示,RF算法构建的糖尿病足诊断模型的受试者操作特征(receiver operator characteristic,ROC)曲线下面积(area under curve,AUC)高达0.969,灵敏度高达95.0%;多项式核函数的SVM模型(SVM-polyK)的AUC为0.938,灵敏度、特异度均为93.8%,预测准确度为93.8%,表现出良好的预测效能。在DFU严重程度预测模型中,RF算法构建的DFU严重程度预测模型ROC的AUC高达0.918,但KNN模型的预测准确度为71.8%,高于RF模型的70.5%。RF和KNN联合建模的AUC可达0.944,准确度为76.5%,优于单一分类器。Stefanopoulos等[19]回顾性研究了美国住院患者的大数据,2008—2014年共有326 853例DFU患者,并通过基于决策树模型的条件推理树对与DFU发生有关的预测因素进行数据挖掘,最终纳入6个变量,其中,蜂窝织炎和Charcot关节病是导致DFU发生的独立危险因素(P﹤0.01)。6个变量构建的DFU诊断模型的灵敏度、特异度、AUC和准确度分别为80.6%、78.3%、0.880和79.8%,预测性能良好。Jian等[20]的回顾性研究收集了884例至少合并一种并发症的糖尿病患者的临床资料,按照是否存在单一并发症设置二分类结局变量并进行ML建模,结果显示,在糖尿病足方面,XGBoost集成算法显示出最优的预测效能,预测准确度高达97.8%,但模型训练时间较单一分类器明显延长。国内主要通过LR算法对糖尿病足的发生情况进行研究。Wang等[21]的研究回顾性收集了1950例T2DM患者的临床资料,采用简单交叉验证法将数据集按照7:3的比例分为训练集和验证集,通过LR算法筛选糖尿病足发生的独立危险因素并构建列线图预测模型,结果显示,训练集和验证集的AUC分别为0.806和0.857,表明模型区分度良好,但均低于上述研究[5,19]中RF、决策树算法得出的预测模型。谢晓冉等[22]的研究通过Lasso回归算法筛选出对糖尿病足影响较大的11个预测因子,并代入多因素LR模型中,所构建的列线图预测模型的AUC高达0.996,外部验证的AUC高达0.928,校准曲线重合良好,提示模型区分度、校准度均较高,提示研究者可发挥ML算法的分类功能,从算法层面筛选更多对糖尿病足具有诊断意义的潜在因子,从而有助于糖尿病足的防治与临床决策的制订。

2.2 预测糖尿病足的预后

Xie等[23]的研究回顾性收集了618例DFU患者的临床资料,运用LightGBM算法构建了包含37个输入变量的DFU非截肢、DFU小截肢和DFU大截肢多分类预测模型,结果显示,模型预测非截肢的灵敏度、特异度、AUC分别为95.0%、69.6%和0.900,预测小截肢的灵敏度、特异度、AUC分别为64.3%和94.5%和0.850,预测大截肢的灵敏度、特异度、AUC分别为33.3%、97.3%、0.860,表现出总体良好的预测效能,但该模型预测非截肢的特异度以及小截肢、大截肢的灵敏度均不高,仍有进一步提升的空间。一项来自丹麦的研究纳入了246 705例糖尿病患者,使用RF和LR分别构建发生截肢事件年限的预测模型,结果显示,各时间点RF模型的AUC均高于LR模型,显示出RF算法的优越性[24]。亦有国内研究指出ML算法优于传统建模方法。陈静等[25]的研究通过BP神经网络、遗传算法优化的BP神经网络与传统COX比例风险模型构建糖尿病足患者截肢及生存预后的预测模型,结果显示,两种BP神经网络预测模型的预测性能均高于COX比例风险模型,且两种BP神经网络的预测性能比较,差异无统计学意义(P﹥0.05)。Deng等[7]的研究通过XGBoost算法和COX回归等统计学方法评估高血糖危象及其他危险因素对DFU患者死亡率的影响,结果显示,两种方法均显示出高血糖危象是造成DFU患者死亡的独立危险因素,其中,XGBoost算法所构建模型预测的灵敏度、特异度、AUC和准确度分别为54.0%、78.0%、0.680和69.0%,未对传统模型的评价指标进行报道。在预测DFU的愈合情况方面,Margolis等[26]的研究选取207例DFU患者进行了前瞻性队列研究,分别用Lasso回归和传统LR分析了DFU患者治疗16周后的愈合情况,将传统单因素分析中差异有统计学意义的5个变量全部纳入多因素LR模型中,AUC仅为0.725,且溃疡面积、溃疡持续时间之间的相互作用明显。仅纳入这两个变量时,多因素LR预测模型的AUC为0.705;运用Lasso回归筛选出的4个变量(溃疡持续时间、溃疡面积、体重指数和下肢动脉血供)较传统方法更加精简,且该组变量所构建模型的AUC为0.721。上述研究在体现ML模型高预测效能的同时亦提示传统统计学方法与ML模型各有其优势和局限性,可能可以在研究实践中加以结合,形成互补。关于各种ML算法与传统统计学方法构建预测模型的效能差异仍存在争议,有待进一步研究。

3 DL识别糖尿病足图像

3.1 糖尿病足图像分割

Goyal等[27]的研究首次将基于CNN的卷积层应用于DFU图像的识别,称为DFUNet,该研究构建了基于单个卷积层和并行卷积层的传统CNN模型,用于提取多个图像特征,从而区分正常皮肤和溃疡皮肤,在对292幅图像的识别中,该模型的AUC高达0.961。Alzubaidi等[28]的研究对DFUNet层级结构进行改进,基于754幅DFU图像构建了DFU QUTNet模型,其架构有利于误差的梯度下降和反向传播,收敛性强,结合SVM和KNN进一步训练模型后,该模型对小面积DFU的识别能力优于DFUNet。为了解决伤口图像采集不标准、光线条件不受控、伤口边界确定困难的问题,Wang等[29]的研究运用关联分层随机场(associative hierarchical random field,AHRF)识别不同外界条件下拍摄的DFU图像,发现AHRF架构识别DFU的灵敏度、特异度分别可高达0.844和0.955,均优于条件随机场(conditional random field,CRF)架构。在对糖尿病足的足底红外热成像图的研究中,Arteaga-Marrero等[30]的研究比较了不同算法对糖尿病患者足底红外热成像的图像分割性能,认为基于CNN的U-Net架构在灵敏度、特异度方面具有优秀的性能和稳定性。

3.2 预测糖尿病足缺血和感染

在糖尿病足缺血和感染的识别方面,Goyal等[31]的研究构建了基于1459幅图像训练的二分类集成CNN模型,用少量人工标记的超像素来表达图像特征,从而划分感兴趣区域(region of interest,ROI),对缺血和感染的预测准确度分别达90%和73%,该模型对复杂的非标准DFU创面的识别仍依靠人工标记ROI,对非标准DFU图像的深度和面积识别性能不强。Das等[32]的研究提出了基于深度CNN的ResNet网络,该模型包括不重复的残差块、2D卷积、批标准化以及结合Leaky ReLU激活函数的跳跃连接等,结果显示,具有7个残差块的深网络(Res7Net)预测糖尿病足感染的AUC高达0.890,在糖尿病足缺血识别方面具有4个残差块的深网络(Res4Net)表现更优,AUC为0.997,总体预测性能达到较高水平。Al-Garaawi等[33]的研究创新性地将用于人脸识别的二值映射规则用于识别DFU图像纹理特征,以丰富输入CNN的图像信息内涵,结果显示,该方法识别DFU的AUC高达0.981,在评估感染方面的AUC高达0.995,在评估缺血方面的AUC为0.820。Han等[34]的研究基于YOLO v3算法开发了对DFU的Wagner分级实时监测和定位的Single-stage模型,该模型具有更快的运行速度和更高的检测精度,预测准确度高达91.95%,并可运用于智能手机等移动设备,为糖尿病足的智能监测提供了新的思路。

3.3 足底温度监测

糖尿病患者异常的足底温度可能是足部疾病出现的早期征兆[35],发生感染和缺血将导致皮肤温度上升或下降,但接触式测温板容易受到环境温度和材料导热的影响。近年来,基于DL的糖尿病足皮肤温度监测逐渐受到重视。Cruz-Vega等[36]的研究基于人工神经网络和SVM构建了一种新的DF温度记录系统(DFTNet),其识别了5种典型足底热成像图,平均灵敏度、特异度、AUC和准确度分别为95.3%、93.7%、94.5%和94%,优于传统CNN构架的AlexNet和GoogleNet,提示该模型对不同级别的糖尿病足具有良好的区分度。Khandakar等[37]的后续研究指出,训练DFTNet使用的5种典型足底热成像图在不同级别糖尿病足的病变典型性方面存在争议,另提出使用无监督学习分类器结合CNN从足底热成像图中自动提取图像特征,使用主成分分析对特征进行降维,最后使用k-均值聚类算法对图像特征进行分类,得到的分类特征继续纳入不同的ML算法,最终将糖尿病足底热成像图按严重程度分为轻度、中度和重度,结果显示,该模型通过足底热成像图评估糖尿病足严重程度的性能与使用图像增强的2D CNN模型相当,均可对早期糖尿病足进行可靠的危险分层。

4 小结与展望

随着对医疗大数据认识的加深,DM越来越受重视。本文在应用层面对ML算法用于糖尿病足的诊断和预测进行了综述,各种ML算法在大数据领域具有独特的应用优势,但在算法层面亦有其固有的局限性,导致模型的可解释性欠佳。未来研究可将ML算法与传统统计学方法进行结合,相互补充,为糖尿病足的治疗决策提供多维度的证据支持,从而改善糖尿病足的治疗效果和预后。

猜你喜欢

截肢糖尿病足灵敏度
How to ensure leftovers are safe to eat
糖尿病足,从足护理
老人崴脚后缘何要截肢
导磁环对LVDT线性度和灵敏度的影响
地下水非稳定流的灵敏度分析
糖尿病足部门诊在预防糖尿病足溃疡中的体会探析
穿甲爆破弹引信对薄弱目标的灵敏度分析
中医综合治疗糖尿病足疗效观察
中西医对血管病变致糖尿病足的认识
无后备灵敏度的220kV变压器后备保护整定