基于模糊理论的高血压药物疗效预测模型研究

2016-03-17曹小凤谢红薇安建成郝晓燕

计算机应用与软件 2016年2期

关键词：贝塔遗传算法规则

曹小凤　谢红薇　安建成　郝晓燕　曹　杰

(太原理工大学计算机科学与技术学院　山西太原 030024)

基于模糊理论的高血压药物疗效预测模型研究

曹小凤谢红薇*安建成郝晓燕曹杰

(太原理工大学计算机科学与技术学院山西太原 030024)

摘要针对评估期内药物占有率MPR(Medication Possession Ratio)和血压进行分析研究，建立用于发现二者关系的贝塔分布模型。利用模糊理论和遗传算法通过交叉验证对模型进行优化并与线性分布模型进行对比。实验结果表明，利用贝塔分布模型确定的MPR与血压值的关系能很好地对患者的用药疗效进行预测。对于大多数高血压患者，只有接受长期的药物治疗，才能使血压得到有效控制。

关键词高血压贝塔分布模型遗传算法交叉验证模糊理论

ON PREDICTION MODEL OF HYPERTENSION DRUGS EFFICACY BASED ON FUZZY THEORY

Cao XiaofengXie Hongwei*An JianchengHao XiaoyanCao Jie

(School of Computer College of Science and Technology,Taiyuan University of Technology,Taiyuan 030024,Shanxi,China)

AbstractAiming at the medication possession ratio (MPR) and blood pressure within evaluation period we carried out analysis and study, and built a beta distribution model for finding the relationship between them. Then we employed fuzzy theory, genetic algorithms (GA) and cross validation to optimise the model, and compared it with linear distribution model. Experimental results showed that the MPR and blood pressure value determined by using the beta distribution model can well forecast the meditation efficacy on patients. For most hypertensives, only by long-term treatment with medicine can the blood pressure be effectively controlled.

KeywordsHypertensionBeta distribution modelGenetic algorithmCross-validationFuzzy theory

0引言

2013年世界卫生日主题“控制你的血压，减少心脏病突发和卒中风险”，可见高血压已成为全球瞩目的公共健康问题。高血压是一种常见的威胁人类健康的慢性疾病，位居引起死亡的十大危险因素之首。因此，有效控制血压对于提高人类的健康水平有重大现实意义。

《中国高血压防治指南》[1]指出，高血压是可以控制的疾病，有效地控制血压可以减少患者心脑血管及其他并发症的发生，进而提高患者的生存质量。Laura等人[2]通过研究发现，在老年人中使用阿替洛尔这类降压药会增加中风的风险；赵艳平[3]通过对治疗原发性高血压的不同药物疗效进行分析，发现洛沙坦和非洛地平的联合用药降低血压变异性更为明显，患者预后更佳；林彩美[4]利用统计分析的方法，研究抗高血压药物对治疗老年人高血压的效果，实验结果表明，卡托普利联合硝苯地平药物治疗高血压效果显著、不良反应少、易耐受, 是治疗老年人高血压的安全有效用药方法。进行药物治疗是控制高血压的有效方式，通过对患者坚持服药程度和血压值进行分析。根据Thusitha等人提出的计算框架[5]从电子处方中计算出患者的MPR，进而建立二者之间的关系，利用遗传算法对所建立的模型进行评估优化，最终得出患者服药时间与血压的模型图。此模型的建立，不仅可以通过患者坚持服药程度对其血压趋势进行预测，还可以给患者提供坚持用药建议，对于高血压慢性病的控制与治疗有一定的指导意义。

1高血压定义和状态分类

在没有使用降压药物的情况下，非同日测量3次血压，收缩压≥140 mmHg和(或)舒张压≥90 mmHg，被诊断为高血压；患者有既往高血压史，且目前正在服用降压药物，虽然血压低于140/90 mmHg，也被诊断为高血压[1]。通过对文献[6]进行研究与总结，现将使用的收缩压SBP(Systolic Blood Pressure)及其状态定义如表1所示。

表1　收缩压值与状态对应关系　　单位：mm Hg

2模型选择

根据山西省某医院提供的高血压数据，通过研究发现，患者的收缩压值和持续吃药时间近似符合贝塔分布曲线。由于正态分布的曲线分布特点是以均数为中心，左右两边呈现对称性并由均数处开始，分别向左右两侧呈逐渐均匀下降趋势。而相比于正态分布，贝塔分布具有多种不同的分布形状，其中包括对称的和非对称的分布，根据参数的不同呈现出完全不同的形状，体现出良好的适应性和普适性。在此，选择贝塔分布对数据进行研究分析。

2.1贝塔分布特点

贝塔分布的密度函数定义如下：

f(x;a,b)=xa-1(1-x)b-1/B(a,b)

(1)

2.2MPR值的计算

此处所研究的是患者持续吃药时间与收缩压的关系，由式(1)可知，该分布函数的自变量范围为(0,1)，因此，文中将持续吃药时间转换为MPR进行研究。MPR是计算有效药物供给时间在一个评估期[5]EP内占有的比例。EP指从病人的电子处方记录中选取感兴趣的一段时期(此处选择的是一年)，根据Thusitha等人在文献[5]中提出的一种方法[4]来计算药物占有率，其计算如下：

(2)

3基于模糊规则的模型

Takagi 与 Sugeno(1985)和 Sugeno 与 Kang(1988)[7]给出了一个产生式规则系统的模糊推理工具。他们提出了一个多维模糊推理，该模糊模型是基于规则的[8,9]，其输出不是一个语言变量，而是输入变量的函数。规则库由n条规则组成，规则的形式如下：

(3)

(4)

(5)

这里使用的“and”是在模糊系统中经常使用的运算。通常使用由Sugeno提供的模糊规则[10]得到复杂过程的输出，其形式描述如下：

(6)

这样，最终的输出y可以按下式计算：

(7)

根据式(7)，最终的输出是由参数决定的复杂的非线性函数，参数的确定不能由传统的方法得到。为了使用遗传算法[11]确定式(7)的最优参数，必须建立适应度函数，表示如下：

(8)

4实验过程及运行结果

4.1实验过程

由于研究的是SBP与MPR之间的关系，根据前面的模型得出的数据值应该符合SBP的取值范围。因此，需要对数据进行尺度变换，将模型得出的数据值模糊化为SBP值所符合的范围，即是转换为第一部分所列出的范围。数据模糊化过程中用到的三个式子如下：

bph=u1/Maxu1×70+160

(9)

bpm=u2/Maxu2×30+130

(10)

bpa=u3/Maxu3×40+90

(11)

其中，ui是n维向量，其值是由式(2)计算出的MPR值根据初始的贝塔分布函数所确定的(初始贝塔分布的参数值说明如表2所示)，Maxui是ui中的最大值，ui/Maxui表示相应规则(此处的规则是表1中所描述的3条规则)的隶属度。通过式(10)-式(12)将相应的精确值分别模糊化为对应的规则区间。

根据山西某医院提供的30 461条患者高血压数据，经过数据清洗得到本实验所使用的200条相关数据，将数据分成10组，每组20条数据，选取其中的8组作为训练集，另外2组作为测试集。根据训练集180条数据得到参数初值如表2所示。

表2　参数初值及种群初始范围

实验在MATLAB 7.0平台下进行，根据表2的初值、范围和适应度函数式(8)，交叉概率Pc=0.8，变异概率Pm=0.05,利用遗传算法对训练集进行多次训练得到参数的优化结果。表3给出了不同的训练集得到的优化参数结果(由于篇幅有限，只列举部分数据进行说明)。

表3　仿真算法得到的优化参数值

4.2参数对比

研究的最终目的是确定SBP与MPR的关系，每一个MPR值对应于三个属于不同范围的SBP值，也就是有三条不同的曲线。因此需要根据不同范围的SBP值所对应的隶属度对数据进行去模糊化处理，得到最终的输出结果。对最终结果好坏的评价，通常用平均误差来衡量，计算如下所示：

(12)

在对大量数据进行研究和实验的基础上，根据式(12)分别计算不同组的平均误差如表4所示。

表4　4组模型对应的平均误差

通过比较发现第4组所确定的模型所得到的平均误差值最小，准确度最高；进行模糊化分段线性分布计算得到最终的RMSE为5.74473，相应的参数a4、b4、a5、b5、a6、b6值如表5所示。因此将第4组对应的模型作为我们的最佳预测模型，用于对持续吃药时间和血压值的预测。

表5　分段线性拟合的参数值

通过大量实验得到表3-表5中的参数值，图1-图3分别是对得到的贝塔分布函数，分段线性分布函数及贝塔分布函数和分段线性分布函数的对比进行描述。

图1　贝塔分布函数结果

图2　分段线性分布函数结果

图3　分段线性分布函数和贝塔分布函数比较结果

经过实验对比，确定图1为最终的持续吃药时间与血压关系模型图。由图1的描述可以得到：当患者血压水平处于90~130 mmHg时，患者持续服药8个月，可以使血压基本维持在较低水平；当患者血压水平处于130~160 mmHg时，由于患者体质不同，服用的降压药的差别可能在短期内会使患者血压有所上升，但服用半年后，这部分高血压患者的血压也可以维持在相对较低的水平；对于血压水平处于160~230 mmHg的高血压患者，在初期服用降压药的效果比较明显，但是需要进行长期的药物治疗，才能使血压维持在较低的水平。

5结语

通过对持续吃药时间和血压值的分析，建立用于预测二者关系的贝塔分布模型。与线性分布模型相比，该模型能够很好地进行血压趋势分析，增强患者可持续服药程度，更好地对血压进行控制。在此研究的基础上建立药物、时间与血压的模型，进而发现三者之间的关系对于指导患者用药，对于提高患者生存质量有重大现实意义，建立相关的模型是下一步所要进行的工作。

参考文献

[1] 刘力生,王文,姚崇华.中国高血压防治指南(2010年基层版)[J].中华高血压杂志,2011,18(1):11-18.

[2] Laura M Kuyper,MD Nadia A Khan,MD MSc.Atenolol vs Nonatenolol β-Blockers for the Treatment of Hypertension:A Meta-analysis[J].Canadian Journal of Cardiology,2014,30(5):S47-S53.

[3] 赵艳平.不同药物治疗原发性高血压的疗效分析与预后评价[J].医药论坛杂志,2012,33(7):96-97.

[4] 林彩美.卡托普利联合硝苯地平药物治疗高血压的临床疗效分析[J].中外医疗,2009,28(8):71.

[5] Thusitha Mabotuwana,Jim Warren,John Kennelly.A computational framework to identify patients with poor adherence to blood pressure lowering medication[J].International Journal of Medical Informatics,2009,78(11):745-756.

[6] 陈建华.国内外的高血压诊断标准[J].中华实用中西医杂志,2010,23(4):33-34.

[7] Jose Luis Aznarte,Jesus Alcala-Fdez,Antonio Arauzo-Azofra,et al.Financial time series forecasting with a bio-inspired fuzzy model[J].Expert Systems with Applications,2012,39(16):12302-12309.

[8] 张德丰.MATLAB模糊系统设计[M].北京:国防工业出版社,2009.

[9] Chen Chunhao,Hong Tzungpei,Tseng Vincent S.Fuzzy data mining for time-series data[J].Applied Soft Computing,2012,12(1):536-542.

[10] Chamani M R,Pourshahabi S,Sheikholeslam F.Fuzzy genetic algorithm approach for optimization of surge tanks[J].Scientis Iranica A,2013,20(2):278-285.

[11] 雷英杰.MATLAB遗传算法工具箱及应用[M].西安:西安电子科技大学出版社,2005.

中图分类号TP18

文献标识码A

DOI:10.3969/j.issn.1000-386x.2016.02.013

收稿日期：2014-08-25。山西省国际合作计划项目(2014081018-2)；山西省科技基础条件平台建设基金项目(2013091003-0103)；山西省基础研究基金项目(2012011011-2)。曹小凤，硕士生，主研领域：人工智能，医学信息学。谢红薇，教授。安建成，副教授。郝晓燕，副教授。曹杰，硕士生。