APP下载

基于数据挖掘的医院综合评价量化建模方法研究

2019-04-01任嘉骏李心怡薛凯琳

计算机应用与软件 2019年2期
关键词:权值死亡率样本

任嘉骏 李心怡 薛凯琳

(西安交通大学附属中学 陕西 西安 710043)

0 引 言

每位患者在病情紧急时,多会选择最近的医院,但在不耽误病情的情况下,均倾向选择治疗效果好的医院[1],那么如何评价医院的水平以及在多家医院中筛选出最合适自己的医院,是绝大数患者所面临的问题。在我国对医院实行了分级管理,共分三级十等,美国和澳大利亚等国实行由第三方机构进行的医院评审制度[2-3]。文献[4-10]分别就医院的运行效率、服务质量、学术水平、患者满意度、绩效、科技影响力以及信息化建设等方面进行了建模评价,这些方法从不同的角度为患者就医时选择医院提供参考。对于普通患者来说,最关注的是医院目前的诊疗水平,因此,就需要基于医院现有诊疗的数据,建立适合的数学模式,对医院诊疗水平做出科学翔实评价,为患者就医提供参考。

基于数据挖掘建立数学模型对医院水平做出评价,需满足以下四个假设条件:(1) 各医院接待的病例情况相同;(2) 在存活病例中,病情严重程度与住院时长正相关;(3) 所有医生对患者病症判断准确且使用了(其认为)正确的治疗方案;(4) 所给数据足够完整,数据真实可靠,并且数据量足够大。

1 基于死亡率的评价模型

在评价一个医院时,最直接方法就是参考这家医院的就医患者死亡率,但由于不同医院中死亡患者(即所有样本中死亡样本)个体差异程度不尽相同,故仅由死亡率评价医院的医疗水平不够客观[11]。因此,需要结合样本死亡率及死亡样本个体差异程度对医院水平做出评价。

1.1 模型准备

影响患者治疗效果的因素有患者方和医院方,评价医院方诊疗水平时,就需要把患者方的因素放在同一基准下。影响治疗效果的患者方的因素很多,本文筛选出年龄、治疗配合程度、经济状况、并发症以及初诊病情程度五个最主要的因素,并将各因素进行合理量化。为防止不同因素量化方式的差异对各项目权重计算的影响,故将每因素不同标准量化结果的均值稳定在同一数值(即4)。量化结果数值越大,该因素对死亡的影响程度越大,量化标准及结果如表1所示。

表1 死亡率影响因素量化标准

续表1

1.2 求各因素权重值

患者个体因素对治疗后果(即治愈天数和患者死亡)的影响程度(即权值)不同,在拥有大数据前提下,我们将某地区某疾病所有治愈患者的资料每5份为一样本组假设共分n组,每个样本组可构成一个5元1次方程组,如下式所示:

(1)

式中:Ai1-Ai5,Di1-Di5,Ei1-Ei5,Ci1-Ci5,Si1-Si5分别表示第i样本组(i∈n)中每个样本年龄、治疗配合程度、经济状况、并发症以及病情初诊严重程度的量化值,KAi、KDi、KEi、KCi、KSi分别表示该i样本组中年龄、治疗配合程度、经济状况、并发症和病情初诊严重程度的权值,Ti1-Ti5分别表示该i样本组该患者的治愈天数。每一组样本能计算出一组权值解。并对n组样本求出的权值计算其平均值,得到年龄、治疗配合程度、经济状况、并发症以及病情严重程度的最终权值(KA、KD、KE、KC、KS),如对病情严重程度的权值KS计算如下式所示:

(2)

1.3 判定样本死亡可避免性

通过1.2节中已求解出的患者本身因素的权重值,就可求解出不同患者个体J治愈的预期天数TJ,其计算如式(3)所示。式(3)中,AJ、DJ、EJ、CJ、SJ为患者J个体因素的量化值。

TJ=AJKA+DJKD+EJKE+CJKC+SJKS

(3)

将全体已治愈样本中治愈最长天数作为是否可治愈阈值,计算所评价医院所有该疾病死亡患者的治愈预估天数,若预估天数大于可治愈阈值,则认为该病人死亡不可避免,否则认为可避免。

1.4 评价医院单一疾病治疗水平

统计评价医院该疾病L所有死亡样本中可避免死亡样本数NL,并计算所占该院该疾病全体就诊患者数SL百分比,就可得出该院的此疾病的不当死亡率PL,如下式所示:

(4)

该疾病不当死亡率的PL值越小,则该医院在该疾病治疗方面的评价就越高。

1.5 对医院的总体评价

在选择医院时,人们不仅会考察在对症治疗上医院的优劣,还会考虑到医院整体情况,只需计算出该医院所有疾病不当死亡率的均值作为评价指标。对于专科医院或科室不全的医院,只计算其所能接诊疾病种类,将各医院不当死亡率进行升序排序,排名越靠前(不当死亡率P越小)的医院被认定为越优。

2 基于综合实力的评价模型

在对一家医院进行评价的过程中,仅仅参考医院不当死亡率不够客观、全面,应从各个方面对医院水平进行综合评价。

2.1 模型准备

在选择判断指标时,模型参考了国内对医院的评价标准和人们通常评价一所医院的判断依据,提炼出硬件条件、软件条件和医院成果三个方面:(1) 硬件条件包括:卫生情况、设备情况、科室数量、床位数据;(2) 软件条件包括:医护人数、诊疗效果、医护态度、医护经验和患者受关注度;(3) 医院成果包括:经济效益和科研成果等11个指标,作为衡量医院的标准,对所涉及的指标进行量化,表2列出了量化标准的计算方法。

表2 综合评价模型影响因素量化标准

2.2 主成分分析法求权重

主成分分析法应用于影响因素较多且两两影响因素之间有一定相关关系时,可将原来众多具有一定相关性的变量,重新组合成为一种新的相互无关的综合变量,大大减少了参与评价的影响因素个数,同时也不会造成信息的大量丢失[12-13]。由于选取了11个指标,为避免在之后的计算中出现歧义,故使用十六进制作为矩阵及变量角标。

根据影响因素的确立及量化,用主成分分析法分别求11个影响因素的权重,令影响因素的权重分别为K1,K2,…,KB。

(1) 将上述K1,K2,…,KB共11个指标重新组合成一组较少个数并且互不相关的综合指标Fn,代替原来指标,构造出的F1,F2,…,Fn为原变量指标K1,K2,…,KB的第一、第二、…、第n个主成分。(规定:主成分F1所含的信息量最大,在所有线性组合中选取的F1是K1,K2,…,KB所有线性组合中方差最大的,为第一主成分;F2是与F1不相关的K1,K2,…,KB所有线性组合中方差最大的,称为第二主成分;以此类推)。主成分线性方程如式(5)所示,式中rij(i∈[1,n],j∈(1,B)为每个指标变量的系数矩阵。

(5)

(6)

(3) 由于量纲不同,故对原始数据进行标准化处理,得到标准化数据矩阵,如下式所示:

(7)

(4) 计算得到主成分相关系数矩阵,如下式所示:

(8)

(5) 计算相关系数矩阵R的特征值和相应的特征向量。前n个较大的特征值λ1,λ2,…,λn>0,即为前n个主成分对应的方差;λu对应的单位特征向量au就是主成分Fn的关于原变量的系数。

(6) 选择重要的主成分。由主成分分析可以得到n个主成分,主成分F1包含的信息大于F2,以此类推,因此各个主成分的方差也是递减的,包含的信息量也是递减的,在实际使用时不会选取所有的n个主成分,而是根据各个主成分累计贡献的大小选取前面m个主成分。此处的贡献率是指某个主成分的方差占据全部主成分方差的比重,也就是某个特征值占据全部特征值和的比重,如下式所示:

(9)

某个主成分贡献率越大说明该主成分包含原始信息量越大,主成分m值的选取,主要依据主成分累计贡献率G来决定,一般来说当累计贡献率达到85%以上时,可以认为这m个主成分包含了原始信息中绝大多数信息。

(7) 得到主成分公式(得到ruv)。

(8) 依据主成分线性公式得到权重K1,K2,…,KB,如下式所示:

(10)

2.3 对医院的整体评价

为了避免权值计算时失去实际意义,采用将某医院中某一项指标加权之后与全体医院该指标加权之后的平均值进行比较。首先,计算出全体医院(共计L个医院)的指标V量化加权后的平均值,如下式所示:

(11)

(12)

求出X医院全部十一个指标的总得分即为该医院最终得分,如下式所示:

Sx=Sx1+Sx2+…+SxB

(13)

最后,用求出的Sx可较为公正、全面地衡量X医院的综合质量。将L个医院所得的最终得分按大小降序排列,认为排名最靠前医院是综合质量最优的医院。

3 模型检验

本文搜集到北京大学第一医院[14]、中国人民解放军总医院[15]、陕西省中医医院[16]、北京市海淀医院[17]四家医院与评价因素有关的数据如表3所示,因素量化后的数据如表4所示。

表3 模型检验样本医院数据表

表4 样本医院相关因素量化后数据表

续表4

将表4中的数据,按2.2节中步骤(2)建立初始量化数据矩阵,并对其采用2.2节中步骤(3)进行标准化处理,得到标准化数据矩阵如表5所示。

表5 主成分分析样本医院标准化数据矩阵

按2.2节中步骤(4)计算得到主成分相关系数矩阵如表6所示。

表6 主成分相关系数矩阵

按2.2节中步骤(5)和步骤(6)计算其特征向量、主成分值和主成分贡献率,其前3主成分的值如表7所示。

表7 主成分分析法分析出的前3主成分

按2.2节中步骤(7)和步骤(8)计算其各因素权重值,计算出的权重值如表8所示。

表8 各因素权重值

最后,依据各样本医院各因素的量化数据(表4),以及计算的各因素的权重值(表8),计算各因素的分值以及总评分值,计算结果如表9所示。

表9 评价医院总评价计算表

从结果可以看出,中国人民解放军总医院的总评价分0.503 9,远远高出其他各样本医院。其他三所样本医院的评价顺序由高到低分别为北京大学第一医院0.074 4、陕西省中医医院-0.222 0和北京市海淀医院-0.356 3。结合复旦大学医院管理研究所和国家卫生健康委员会对上述四所医院的等级评定[18],本文计算结果符合医院诊疗水平,故认为模型有效。

4 结 语

为解决患者就医寻找合适医院难的问题,本文依据医院诊疗数据,建立了基于死亡率与综合实力的医院评价模型。基于死亡率的模型中,采用“不当死亡率”来评价医院对某疾病的诊疗水平,避免患者自身因素对评价结果的影响,但模型存在无法评估医院在治疗非致死疾病水平的问题。基于综合实力的模型中,采用主成分分析法对评价指标的权值进行了计算,避免了各指标之间相关性的影响,该模型评价结果综合性和说服力强,但由于计算复杂度等方面限制,仍忽略部分次要因素。

猜你喜欢

权值死亡率样本
全面的健康生活方式显著降低糖尿病死亡率
一种融合时间权值和用户行为序列的电影推荐模型
走路可以降低死亡率
春季养鸡这样降低死亡率
用样本估计总体复习点拨
基于5G MR实现Massive MIMO权值智能寻优的技术方案研究
新冠肺炎的死亡率为何难确定?
一种基于互连测试的综合优化算法∗
规划·样本
程序属性的检测与程序属性的分类