APP下载

基于粒子群优化算法随机森林模型的体外冲击波治疗泌尿系统结石疗效预测研究

2023-03-27王祖铭李永刚马雪中方舸

医疗装备 2023年5期
关键词:样本数泌尿系统决策树

王祖铭,李永刚,马雪中,方舸

1 南京理工大学计算机科学与工程学院(江苏南京 210018);2 南京中医药大学附属医院(江苏南京 210029);3 南京中医药大学附属医院紫东院区(江苏南京 210046)

泌尿系统结石是泌尿外科的常见病与多发病,其发病率在泌尿外科住院患者中占据首位[1-2]。2020 年《中国泌尿外科和男科疾病诊断治疗指南》[3]发布的泌尿系统结石流行病学调查显示,中国成年人泌尿系统结石发病率为1%~5%,年新发率为(150~200)/10 万人,与美国、泰国一起被列为世界上3 大结石高发区[2]。体外冲击波碎石的原理是在X 线或超声影像定位下将声透镜聚焦的冲击波导入体内,覆盖结石,结石在一定冲击波能量下受到多种冲击波效应的影响而发生裂解、粉碎[4]。经过40 多年的发展,目前我国二级及以上中、西医医院及专科医院基本都配置了专业的体外冲击波碎石设备,随着设备的不断改进和经验的不断积累,体外冲击碎石治疗技术日臻成熟,成为目前临床治疗直径小于20 mm 或表面积小于300 mm2泌尿系统结石的标准方法[3]。目前,在我国现行医保体系下,体外冲击波碎石治疗并未被列入住院手术项目,而是门诊治疗项目,由患者全额自费承担治疗费用,这意味着患者可能面临因不适用体外冲击波碎石治疗而导致碎石失败,不仅使其承受健康、时间及经济方面的多重损失,还可能会因此引发医患纠纷。因此在泌尿系结石患者进行取石治疗前,快速、科学、有效地对患者体外冲击波碎石治疗效果及并发症进行分析和预测,不仅可以使患者更直观、更充分地了解治疗方式及其利弊,而且可以最大限度地避免患者损失,降低医疗服务成本,具有重要的临床指导意义。基于此,本研究提出一种粒子群优化算法随机森林(particle swarm optimizationrandom forest,PSO-RF)模型,并用于体外冲击波治疗泌尿系统结石的疗效预测,以期为体外冲击波治疗泌尿系统结石提供新的选择和思路。

1 资料与方法

1.1 一般资料

选取2018 年至2021 年1 江苏省中医院泌尿外科确诊的原发性泌尿系统结石患者1 150 例为研究对象,其中男871 例,年龄8~81 岁,平均(44.38±13.54)岁,女279 例,年龄7~90 岁,平均(46.31±14.08)岁。本研究纳入的研究对象均符合《中国泌尿外科和男科疾病诊断治疗指南》[3]中的确诊和分类标准,其中,左输尿管上段结石患者247 例,左肾下盏结石患者185 例,右输尿管上段结石患者181 例,右肾下盏结石患者119 例,左输尿管下段结石患者100 例,右输尿管下段结石患者78 例,左肾盂结石患者54 例,其他结石患者186 例。本研究为回顾性研究,不涉及伦理、患者个人信息及隐私等安全问题。

1.2 方法

本研究中,治疗设备采用Dornier Lithotripter S Ⅱ体外冲击波碎石机。

1.2.1 随机森林模型

集成学习是机器学习中的一种大类,其基本思想是将多个分类器组合,从而构建一个预测效果更佳的集成分类器。集成算法大致可分为3 种类型:Bagging、Boosting 和Stacking。机器学习包括回归和分类两种任务,而随机森林(random forest,RF)可以同时胜任这两种任务。其中,分类任务是对离散值进行预测,回归任务是对连续值进行预测[5-6]。

在RF 中,个体学习器采用决策树(decision tree,DT)算法,该算法性能的优劣对RF 的学习能力具有重要影响。DT 的生成就是递归构建二叉树的过程,本研究通过基尼指数最小化准则进行特征选择,生成二叉树。定义训练数据集为D,回归树为f(x),生成算法如下。

第一步,选择最优切分变量j与切分点s,遍历变量j,计算。

记录达到最小值时的对应位置(j,s)。

第二步,用选定的对应位置(j,s)划分区域,并决定相应的输出值。

第三步,重复第一步和第二步,直至满足停止条件。

第四步,将输入空间划分为M 个区域R1、R2……RM,生成DT。

第五步,重复第一步至第四步,直至生成RF。

基尼指数可以选择最优特征,同时决定该特征的最优二值切分点。基尼指数表示集合D 的不确定性,基尼指数越大,样本的不确定性越大。

则在特征A 的条件下,定义集合D 的基尼指数为:

1.2.2 粒子群优化算法

粒子群优化算法(particle swarm optimization,PSO)最初是受自然界鸟群捕食行为启发而提出的能够在全局范围内较好地进行参数寻优的集群智能寻优算法。在数学上,将鸟群的觅食空间抽象为所研究问题的潜在解的空间,该空间为N维,空间内粒子数为n,整个空间内的全部粒子X={x1,x2,x3,…,xn},某个问题的潜在解为第i个粒子的位置xi,每个粒子都知道自己目前为止发现的最好位置,即最优解pbesti和当前解,若当前解优于个体记录的历史最优解,则更新最优解pbesti为当前解。同时,个体也知道整个群体中所有粒子发现的最优解gbesti。若个体当前解优于群体最优解gbesti,则更新gbesti。粒子的运动由自身和群体的历史经验,以及当前位置决定[7-8]。粒子通过下列公式更新自己的速度和位置,速度计算公式如下:

其中i=1,2,…,N,N为群体中粒子的总数,即所研究问题的潜在解的个数。

在公式(5)中,ω 为惯性权重,表示上一代粒子的速度对当代粒子速度的影响,一般随着进化过程的线性递减;c1和c2为学习因子,通常都取固定值2,r1和r2是两个介于[0,1]的随机数,c1*r1*(pbesti-xi)代表粒子从当前位置指向历史最优位置的矢量,反映了粒子的自身经验对其运动行为的影响;c2*r2*(gbesti-xi)代表粒子从当前位置指向群体最好位置的矢量,反映了粒子间的信息共享。

ω 值越大,探索新区域的能力越强,全局寻优能力越强,但是局部寻优能力越弱。反之,全局寻优能力越弱,局部寻优能力强。较大的ω 有利于全局搜索,跳出局部极值,不至于陷入局部最优;而较小的ω 有利于局部搜索,使算法快速收敛到最优解。因此ω 不宜为固定常数,在粒子优化过程中一般采用线性递减权值策略,一般初始化为0.9,递减到0.4,如公式7 所示。

其中,Gk为最大迭代次数,ωini为初始惯性权值,ωend为迭代至最大进化代数时的惯性权值。

1.2.3 PSO-RF 模型优化过程

RF 模型中很多参数的组合可实现局部最优,不同的选择组合直接影响整个模型的建立和分类效果。在模型的建立、训练和预测过程中,使用的样本数据通常为随机选择,常规条件下,RF 缺少特定的规则选择办法,多数使用经验论。本研究将PSO 优化算法融入RF 模型,对RF 模型中的参数进行迭代计算,并快速选择适用于RF 模型的优化参数,以提高RF 模型的训练和识别效率。

引入Kappa系数,评估模型输出结果的一致性和有效性。对于分类问题,Kappa系数用于表述分类模型的精确度,Kappa系数越大,模型的分类精度越高,定义Kappa系数为:

其中,Po表示总体分类精度,Pe表示各类别对应的预测值样本数与真实值样本数的乘积,在数值上,Pe可表述为:

其中,αi表示第i类的样本数量,βi表示预测为第i类的正确样本数量,c表示分类类别数,n表示样本个数。

Kappa系数作为适应度值,其优化过程如下:

第一步,初始化。随机设定一组粒子种群,初始化位置和速度,迭代次数,终止条件,在特定的范围内随机选择Kappa。

第二步,计算每个粒子的适应度值。

第三步,将粒子当前位置设置为初始个体极值,取适应度值最大的粒子对应的个体极值,作为最初的全局极值。

第四步,计算迭代第m次更新的位置和速度,分别为xi和vi,个体极值PmBest={PmBest1,PmBest2,PmBest3,…,PmBesti},从该个体极值中寻求最优极值,作为全局最优极值P mBest,并与第m-1 次迭代的P(m-1)gBest进行比较,如果更优,则更换,否则保留P(m-1)gBest为PmgBest不变。

第五步,更新粒子位置和速度;根据PSO 理论对新粒子的位置和速度进行计算和更新,包括惯性权重,学习因子等。

第六步,根据Kappa系数和迭代次数判断是否满足终止条件,若满足终止条件,则结束循环,否则跳转至第二步。

第七步,运用最佳超参数,重新构建新的RF模型。PSO-RF 模型流程如图1 所示。

图1 PSO-RF 模型流程图

1.2.4 模型预测性能评价指标

各模型通过训练集训练获得最终预测模型后,需要用测试集对模型的性能进行评估,以体现模型对新数据的预测效果。常见的模型预测性能评价指标有识别准确率、AUC、精确率、召回率及F1 分数,对所建立的预测模型和粒子群优化算法优化后的模型进行性能评价。定义TP 为真正例,即实际为正,预测为正;FP 为假正例,实际为负,但预测为正;FN 为假反例,实际为正,但预测为负;TN 为真反例,实际为负,预测为负。则准确率、AUC、精确率、召回率及F1 分数计算方法如公式(10)所示。

其中,AUC等于ROC 曲线在假正例率的积分。

2 结果

2.1 模型求解

使用PSO 算法对RF 模型进行优化,其实质在于对RF 模型的决策树个数、决策树最大深度、叶子节点最小样本数、节点划分最小样本数进行优化求解。随机划分70%的样本集,作为模型求解数据集,剩余30%的样本集作为下文的测试集。PSO-RF 模型的具体构建方法和步骤为:首先,将求解数据集随机10 等分,取5 折交叉验证的Kappa系数作为适应度函数;其次,随机生成RF决策树个数为100、决策树最大深度为5、叶子节点最小样本数为50、节点划分最小样本数为0;再次,将RF 节点分裂评价准则选择gini 函数,划分时考虑的最大特征比例选择auto 模式,节点划分不纯度的阈值设定为0;最后,在PSO 算法模型中,设置初始粒子种群数为50,粒子种群的维度D 计算为39,最大迭代次数设置为150 次,惯性权重设置为0.9,个体学习因子和群体学习因子均为2。PSO-RF 模型建立和求解的过程如图2 所示。最终经PSO 算法优化后的RF 模型最优参数值如下:决策树个数为142、决策树最大深度为10、叶子节点最小样本数为26、节点划分最小样本数为0。

图2 最优适应度个体随机森林参数变化

2.2 基于PSO-RF 模型对体外冲击波治疗泌尿系统结石疗效的预测结果

对纳入本研究的1 150 例患者按照7∶3 的比例随机分为训练集和测试集。选取传统神经网络(back propagation,BP)[9-10]、支持向量机(support vector machine,SVM)[11]、决策树(decision tree,DT)[12-13]进行建模,以及本研究提出的PSO-RF模型对目标患者标签进行分类预测,通过虚拟化操作统一数据量纲,以数据集70%的数据量作为各算法的训练集,其余30%作为模型测试集。选取分类预测准确率、AUC、精确率、召回率及F1 分数作为模型输出表现的评价指标,并使用MATLAB 2019a 对各模型进行搭建、训练和测试,记录真正例、假正例、假反例及真反例的个数,并计算各模型的预测准确率、精确率、召回率及F1分数,如表1所示。

表1 各模型对体外冲击波治疗泌尿系统结石疗效的预测结果

由表1 可知,PSO-RF 模型对体外冲击波治疗泌尿系统结石疗效的预测准确率相比BP 神经网络模型、SVM 模型及DT 模型分别提高了4.3%、6.9%及11.0%,相比SVM 模型及DT 模型,差异有统计学意义(P<0.05);PSO-RF 模型对体外冲击波治疗泌尿系统结石疗效预测的召回率相比BP 神经网络模型、SVM 模型及DT 模型分别提高了6.7%、9.1%及13.7%,差异有统计学意义(P<0.05);PSORF 模型对体外冲击波治疗泌尿系统结石疗效预测的精确率相比BP 神经网络模型、SVM 模型及DT模型分别提高了5.2%、14.5%及13.2%,相比SVM模型及DT 模型,差异有统计学意义(P<0.05);PSO-RF 模型对体外冲击波治疗泌尿系统结石疗效预测的F1 分数相比BP 神经网络模型、SVM 模型及DT 模型分别提高了4.1%、12.1%及10.3%,相比SVM 模型及DT 模型,差异有统计学意义(P<0.05)。绘制BP 神经网络模型、SVM 模型、DT 模型及PSO-RF 模型的ROC 曲线,如图3 所示,计算各模型曲线的AUC分别为0.65、0.71、0.63 及0.74,PSO-RF 模型对体外冲击波治疗泌尿系统结石疗效的预测价值较BP 神经网络模型、SVM 模型及DT 模型更高。

图3 各模型的ROC 曲线

2.3 各模型时间复杂度的比较

使用70%的样本集对各模型进行训练,重复该过程20 次,并记录BP 神经网络模型、SVM 模型、DT模型及PSO-RF模型对训练集训练使用的时间,如图4 所示。PSO-RF 模型对体外冲击波治疗泌尿系统结石患者的训练时间相比BP 神经网络模型降低,差异有统计学意义(t=9.81,P<0.05)。

图4 各模型时间复杂度的比较

3 讨论

泌尿系统结石的成因比较复杂,至今仍未明确。根据现有的结石治疗指南所规范的体外冲击波治疗的适应证和禁忌证,以及近些年体外冲击波治疗泌尿系结石疗效的研究,一些研究机构与医院临床虽然自身已经建立了一套预测方法[14-17],但在目前的临床实践中,大部分医师受限于技术、经验等因素,仍无法根据这些指南推测体外冲击波治疗的成功率,无法合理制订体外冲击波碎石方案,并预估术后并发症的发生概率等。而且体外冲击波碎石治疗成功与否,取决于治疗前后的数十种因素,这些因素之间的关系及对体外冲击波碎石疗效的影响尚未完全明确[18-20],因此结合数据挖掘技术的计算机辅助预测体外冲击波疗效具有重要临床意义。

本研究针对泌尿系统结石临床治疗过程中的痛点、难点等问题,提出了一种基于PSO 算法优化RF 模型的预测方法。该方法将RF 模型中的决策树个数、决策树最大深度、叶子节点最小样本数及节点划分最小样本数进行优化求解,该过程既保留了RF 模型准确率高,还引入了随机性,且具备不容易过拟合、抗噪声能力强等特点,又兼顾了PSO算法的优点,极大地提高了RF 模型的效率。通过泌尿系统结石患者的年龄、身高、体重、性别、结石位置、结石大小、体外冲击次数等特征值进行无监督训练学习,PSO-RF 模型对体外冲击波治疗泌尿系统结石治疗效果的预测准确率、精确率、召回率、F1 分数、AUC分别为84.0%、85.6%、81.4%、78.8%及0.74,相比传统BP 神经网络模型、SVM 模型及DT 模型,PSO-RF 模型具有更高的预测准确率、召回率、精确率、F1 分数和AUC,对体外冲击波治疗泌尿系统结石效果具有更高的预测价值,可为体外冲击波治疗泌尿系统结石提供新的选择和思路。

猜你喜欢

样本数泌尿系统决策树
SNHG16 promotes hepatocellular carcinoma development via activating ECM receptor interaction pathway
勘 误 声 明
哪些疾病容易诱发泌尿系统结石
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
Fisher线性判别式阈值优化方法研究
基于决策树的出租车乘客出行目的识别
泌尿系统组织学PBL教学模式浅析
临床护理路径在泌尿系统疾病围手术期护理中的应用
基于肺癌CT的决策树模型在肺癌诊断中的应用