基于机器学习的原发性高血压心血管风险预后模型

2022-08-09崔伟锋林萍刘萧萧郭泉滢

中国老年学杂志 2022年15期

崔伟锋林萍刘萧萧郭泉滢

(1河南省中医药研究院，河南郑州 450004；2河南中医药大学)

高血压发病率逐年上升，其并发症具有较高的致残、致死率，已成为影响全球疾病负担的首要危险因素〔1〕。高血压最常见的并发症是心、脑、肾等靶器官的损伤，其中又以心血管疾病最为常见〔2〕。目前关于原发性高血压预后危险因素的研究有很多，但缺少中医临床表现、中医证型等中医证候相关信息。目前临床研究中大多以血压及症状等指标为效应指标，对于评判预后更有意义的心脑血管终点事件等结局指标缺乏研究〔3，4〕。预测模型研究多以线性关系预测模型为主，尚未建立基于复杂关系的预后模型方法。本研究纳入血管功能评价及中医元素探索建立基于人工神经网络的原发性高血压心血管风险预后模型。本研究结果能够对高血压预后进行全面评估，提供更为准确的预后预判，有助于临床工作者向患者及家属提供更为精准的预后信息、为临床原发性高血压心血管的防治及决策提供依据，并可探索建立预后模型构建的方法学。

1 资料和方法

1.1研究对象于2001～2016年在全国高血压中医诊疗中心建立高血压队列人群，选取其中原发性高血压患者为研究对象。纳入标准：①符合原发性高血压诊断标准；②年龄在18岁以上；③病程在5年以上；④可以接受随访。采用调查表完成基线的采集和随访，基线采集包括年龄、性别、病程、有无早发心血管病家族史、身高、体重、腰围、臀围、吸烟史、饮酒史、情绪、睡眠、饮食习惯、运动量、总胆固醇(TC)、三酰甘油(TG)、高密度蛋白胆固醇(HDL-C)、低密度脂蛋白胆固醇(LDL-C)；血糖：空腹血糖、餐后2 h血糖、糖化血红蛋白、空腹血胰岛素；电解质：钾(K)、钠(Na)；肾功：尿素氮、肌酐、尿酸；血同型半胱氨酸、颈股脉搏波传导速度(cfPWV)、颈桡脉搏波传导速度(crPWV)、踝肱脉搏波传导速度(baPWV)、踝臂压指数(ABI)等；血管内皮功能检测：血流介导的血管舒张功能(FMD)、中心动脉压；心功能检查：左室后壁厚度、室间隔厚度，左室射血分数(EF)、左室舒张末期内径；头晕、头痛、心悸、心慌、易怒、耳鸣、口干苦、面红、失眠、水肿；辩证结果。随访时间为2015年1月至2016年12月。随访主要心血事件发生情况及时间。主要心血管事件包括：脑血管死亡、脑梗死、脑出血、心肌梗死。

1.2统计学方法分别采用R语言进行统计分析。计量资料符合正态分布的使用均数±标准差表示，进行独立样本t检验；不符合正态分布则用中位数(四分位间距)表示，采用秩和检验进行分析。计数资料的构成比使用频数(百分数)表示，使用χ2检验或Fisher确切概率法进行分析。使用COX回归分析对可能与预后相关的因素进行筛选。以P<0.05为差异具有统计学意义，对筛选后的变量进行共线性诊断，将存在严重共线性的变量进行删减或替换。用R语言将数据按照7∶3的比例随机分成训练集和测试集，使用R语言构建预后预测模型，决策树模型使用“party”包，随机森林模型使用“random Forest”包，支持向量机模型使用“e1071”包，人工神经网络模型使用“nnet”模型。构建预后预测模型，基于训练集的数据将各个变量代入算法进行建模，然后在测试集中验证。模型预测的效力使用混合矩阵评估其准确性。

2 结果

2.1病例分布情况共纳入了1 000例原发性高血压患者，剔除无法完成随访的病例后，共有985例进入分析，随访时的平均年龄为(55.82±5.80)岁，平均病程(10.60±4.20)年，有早发心血管病家族史者431例(43.8%)，基线血压水平在正常范围内的为280例(28.4%)，基线血压水平达高血压1级的有581例(59.9%)，2级者95例(9.6%)，3级者29例(2.9%)。男性有833例(84.6%)，吸烟史者有295例(30.0%)，有饮酒史者384例(39.0%)；在运动量方面：经常运动427例(43.4%)、有时运动311例(31.6%)、很少运动247例(25.1%)；睡眠情况：很好536例(54.4%)、时好时坏293例(29.7%)、较差156例(15.8%)；情绪：经常有不良情绪263例(26.7%)、很少有不良情绪430例(43.7%)、几乎无不良情绪292例(29.6%)；饮食习惯：高脂肪饮食186例(18.9%)、一般饮食456例(46.3%)、很清淡饮食343例(34.8%)。985例患者经查阅整理病例资料及随访资料，至随访结束时，212例(21.5%)脑梗死，8例(0.8%)脑血管病死亡；26例次(2.6%)脑出血，38例次(1.7%)心肌梗死，合计284例患者发生终点事件。体重指数(BMI)：未发生终点事件(26.89±4.31)kg/m2、发生终点事件(26.39±3.63)kg/m2；糖代谢异常：正常719例(73.0%)、异常266例(27.0%)；脂代谢正常584例(59.3%)、异常401例(40.7%)；血同型半胱氨酸(Hcy): 未发生终点事件(15.67±6.97) μmol/L、发生终点事件(17.18±7.58)μmol/L；平均ABI：未发生终点事件1.15±0.46、发生终点事件1.13±0.09；cfPWV：未发生终点事件(8.88±2.65)m/s、发生终点事件(8.77±2.60 )m/s；平均动脉压：未发生终点事件(103.98±9.30)mmHg、发生终点事件(100.96±12.13)mmHg；头晕578例(58.6%)；头痛535例(54.3%)；气虚血瘀证164例(16.6%)；阴虚阳亢证51例(5.2%)；肝肾阴虚证207例(21.0%)；阴阳两虚证11例(1.1%)。

2.2确定建模变量以是否发生心血管风险为因变量，影响心血管风险的因素为自变量构建风险比例模型，经COX单因素、多因素筛选(多因素分析前共线性诊断后对同类变量进行删除或合并)，从48个变量中共筛选出13个变量〔病程、性别、早发心血管病家族史、BMI、饮食习惯、Hcy、平均ABI、平均动脉压、FMD、气虚血瘀证、阴虚阳亢证、肝肾阴虚证、阴阳两虚证〕与心血管风险相关。参考相关文献〔5，6〕数据并考虑模型的预测全面性及预测能力。糖耐量异常、脂代谢异常、cfPWV均与心、脑血管疾病的发生密切相关，影响原发性高血压患者的预后，高血压首发症状头晕(14.0%)、头痛(6.9%)本研究发生频率较高。最终确定这些变量进入预后模型的变量。对以上18个变量进行共线性诊断，发现这18个变量的容忍度均>0.1，方差膨胀因子均<10，各变量之间不存在共线性。见表1。

表1 建模变量的共线性诊断

2.3决策树模型在模型训练方面，混淆矩阵提示决策树模型训练集中的总体错误率为28.7%，说明模型对训练集分类的效果尚可。决策树模型如图1所示。

2.4随机森林模型随机森林建模变量的重要程度分析得出BMI、Hcy、平均ABI、平均动脉压等变量对模型的正确率贡献较大，见图2。在模型训练方面，混淆矩阵提示随机森林模型训练集中的总体错误率为28.7%，提示随机森林模型对训练集数据的分析能力尚可。见表2。

2.5支持向量机支持向量机同样无法实现计算过程及模型的可视化，构建支持向量机模型后，观察模型对训练集数据的解析，其训练集的混淆矩阵提示总体错误率为24.2%，模型对训练集分类的效果相对较好，预测正确率可达75%以上。见表2。

2.6人工BP神经网络 BP神经网络模型是目前应用最广泛的神经网络模型之一，能够通过反向传播来不断调整网络的权值和阈值，降低网络模型的误差〔2〕。本研究中BP神经网络训练集混淆矩阵提示总体错误率为19.1%，模型对训练集分类的效果较好，预测正确率也在80%以上。见表2。

2.7模型评估与比较使用测试集数据对4个模型进行评估与对比，具体方法是将测试集数据分别代入4种模型，验证并评估模型对是否发生终点事件的预测能力。结果提示支持向量机对测试集病例是否发生复合终点事件的预测更为准确，其次为随机森林和决策树，而人工BP神经网络的准确性最低。见表3。

图1 决策树模型

图2 随机森林模型中变量的重要度

表2 随机森林、支持向量机、人工神经网络模型训练集混淆矩阵(n)

表3 4种模型测试集混淆矩阵(n)

3 讨论

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论等多个学科，本质上是研究计算机怎样模拟或实现人类的学习行为，通过训练、学习大量的样本集得出需要的参数或模式，不断调整和改进自身已有的知识结构和性能，是人工智能的核心部分〔7〕。本研究中所用到的决策树、随机森林、支持向量机和人工神经网络算法均属于机器学习算法，且对数据的分布形式无特殊要求，适用性较广，能够很好地适应临床工作中各种各样的数据形式。

决策树算法是一种树状结构，通常分为两个阶段：决策树的构建和修剪；决策树的每个节点代表一个属性，每个分枝代表它在上一节点属性上的可能取值，通过这种方式构建一种分类规则，每一个根节点到叶的路径都代表了一种分类规则〔8〕。其优势是能够实现模型推导过程的可视化，便于理解和传播。但其不足之处则是由于建模过程过于简单，导致其对异常值的处理能力不足〔9，10〕。

随机森林是基于决策树算法的分类器，能够利用多棵树对样本进行训练并预测，最后通过综合多棵决策树的表决结果来进行类别判断〔11〕。其优势在于能够自动探索对类别具有较大帮助的变量，进而构建出类别差异明显的分类器，对线性和非线性数据均能进行分类〔12〕，适用性较广。其局限性在于难以实现整个森林的可视化，且在处理某些噪声较大的数据集时容易出现过度拟合的情况，因此在使用该算法过程中要注重对变量的筛选。支持向量机通过数据的结构化，将不同类别的数据之间的差异问题转化为空间结构上的距离问题，通过寻找数据结构上的最大距离，从而对数据进行分类，这种维度的转换，可以降低分类的错误，并良好地适应线性和非线性数据，且小样本数据研究中的结果也相当稳健〔13〕。其优势也就在于善于处理各种维度的数据，并具有良好的泛化能力，拥有多种核算法。其局限则是在处理复杂计算过程或大数据时，需要耗费更多的时间，且经典支持向量机算法只能进行二元分类，面对多元分类问题时需结合其他算法。人工神经网络算法是模仿人类大脑神经系统信号传导结构和相关功能的一种信息处理系统〔14〕。人工神经网络一般分为输入层、若干隐藏层和输出层，各层包含了大量以某种特定的拓扑结构相连的节点 (或神经元)。每个神经元的传递函数是特定的，具有学习、记忆、概括、归纳等类似人脑的基本特征〔15〕。其优点在于与多种学科紧密联系，相互促进，并具有一定的容错和容差能力。局限性在于学习时间过长。本研究基于相同变量，分别构建了决策树、随机森林、支持向量机和人工神经网络模型，并对模型的预测效能和稳定性进行了对比，结果显示：基于相同变量条件下，4种模型中支持向量机的预测效能最好，其次为随机森林和决策树，人工神经网络最差。然而，本研究的结果仅仅基于本次研究的数据，用以探索高血压预后预测模型的最优算法，难以外推至其他数据。在实际情况中，每种算法均有其优势和局限性，应根据实际需要选择合适的算法。

本研究虽只是探索阶段，仍有许多不足，但在一定程度上弥补了目前原发性高血压预后研究的不足之处，为其预后模型的构建提供了一种新思路，具有临床参考价值。通过加入动脉功能指标和中医证候，并构建更好的预后预测模型，能够帮助临床医师更好地判断高血压患者预后，为患者提供更科学、更细致的个体化治疗方案，以期改善原发性高血压病的预后。