基于数据挖掘的标准化医疗保险监控模型构建*

2015-03-13孙听雪何小军李吉辉邢亚文辛均益

医学信息学杂志 2015年3期

关键词：信息学数据挖掘聚类

梁俊孙听雪何小军李吉辉邢亚文辛均益

(浙江大学医学院附属第二医院杭州 310000) (浙江大学医学院附属邵逸夫医院杭州 310000) (浙江大学医学院附属第二医院杭州310000) (浙江医学高等专科学校杭州 310000)

•医学信息研究•

基于数据挖掘的标准化医疗保险监控模型构建*

梁俊孙听雪何小军李吉辉邢亚文辛均益

从数据集建立、模型设计、医保审核模型相关指标建立、原始数据集预处理、基于K-means的聚类特征生成、数据分类、后处理模块几方面介绍基于数据挖掘的标准化医疗保险监控模型构建，提高医疗费用审核效率，减少医疗资源浪费。

数据挖掘；医保费用；异常检测

1 引言

《中共中央关于全面深化改革若干重大问题的决定》明确提出：“要深入改革医保支付方式，健全全民医保体系”[1]，2014年《浙江省人力资源和社会保障工作要点》进一步要求建立健全医保监管信息平台，强化对医疗费用的全面审核和智能监管，严格控费控药，全力打造阳光医保[2]，可见医疗保险信息化是国家大力开展的建设项目，人人享有健康是医疗保障建设的普遍性目标[3]。随着医疗保障事业的发展，信息化管理改革的深化，信息技术广泛应用，国内在医保支撑信息系统的可用性、安全性、互操作性建设以及数据积累上已经获得了一些阶段性成果[4-7]，如何有效二次利用这些沉淀数据，提高医保管理效率，降低差错发生是当前医学信息领域的研究热点之一。数据挖掘技术将数据经过标准化处理并转成计算机可处理的信息，将这些信息用于决策或验证，然后积累形成知识。将数据挖掘技术用于医疗保险数据分析，能有效分析大量的沉淀数据，找出隐含的规则和模式，促进医学的发展[8]。因此，医疗保险数据的信息化、标准化是医疗保险制度建设和管理服务中两个互为依存的重要工作，也是提高医疗服务质量、构建完善的医疗保险信息网的基础和进行大数据挖掘的前提[9]。本研究利用数据挖掘技术，建立一套分类模式，以协助医保中心进行医疗费用审查的工作，研究的目的如下：(1) 结合朴素贝叶斯分类算法(NB)和K-means聚类算法，发展更有效的数据分析模式。(2)找出医疗费用审查的关键因素。(3)利用本研究发展的数据挖掘技术，辅助医保中心进行医疗费用审查业务。

2 研究方法

2.1 建立数据集

首先创建所需的医疗费用数据子集，包含1 000人次就诊所产生的相关费用数据集，同时进行了标准的匿名化处理，去除患者的病人ID、姓名、性别、年龄、所在病区、床位号等识别信息；然后由专家对这些费用进行人工审核，手工分配1个状态

标签，包括“正常”和“异常”状态。

2.2 模型设计

医保费用审查主要包括两个方面：行政审查和专业审查。专业审查需要结合患者病历对治疗行为及其相关费用的合理性进行判断，但当前医保费用审核并不涉及患者病历上传工作，因此本研究主要针对行政审查，即关注对医保报销医疗费用的整体审查。本研究假设在一个医疗机构中，不同医生治疗类似疾病所产生的医疗费用金额是接近或符合一定规律的。系统整体架构，见图1。

图1 系统架构

2.3 医疗费用医保审核模型相关指标的建立

分析医疗费用审核业务因素形成分析模型中的各种初步属性。因为NB中假设各维度互相独立，因此需要注意各维度之间的相关性，利用业务规则删除相关性过高的属性，避免各个维度之间的依赖。最终确定的医疗费用审核指标，见表1。

表1 医疗费用审核指标及其数据分布(元)

2.4 原始数据集预处理

研究对象是经过匿名化处理的患者医疗费用汇总数据集，采用Yang等[10]提出的标准化数据挖掘步骤进行研究。需要首先进行数据的前置处理，包括数据清洗、合并、转换(在本研究中对应连续值属性的离散化)，尽量避免不完整、错误数据对医保审核数据模型的影响。数据清洗的目的是针对所收集的数据集执行初步清理和过滤动作，以获得有用的信息，确保数据质量，包括检查各个字段是否有不属于或违反字段约束的数据；检查就诊科室、诊断、医保类别等字段是否有Null值；合计费用是否为0等。该过程将移除从业务角度看有问题的记录并检查数据记录的完整性。数据合并则是建立符合之前医疗费用医保审核模型相关指标所需的数据表。数据转换的目的是确保数据格式或类型符合数据挖掘模型和方法的要求。鉴于此，首先进行了就诊科室、诊断等维度的粗粒度合并，以免这些维度值的过于分散影响后续基于K-means的聚类特征的生成。另外，在朴素贝叶斯模型中，如果属性值是连续性的，数值的连续性变化会对最终的概率分配产生较大影响，同时处理连续性维度的密度函数定义复杂，对数据中的连续性属性需要首先界定范围并将连续性数值离散化，简化计算过程，提高计算精度。在研究中，采用了基于信息增益的离散化方法，通过迭代比较不同断点值的信息增益值来确定最佳断点集。信息增益(IG)[11]被定义为子集S的信息上与断点s1针对集合S的信息熵之差：

IG(s1)=H(S)-H(s1)

(1)

(2)

(3)

基于上述定义，对诊疗费、检查费、手术费、药费、麻醉费、材料费、化验费、输血费、自费金额、报销金额等连续值维度进行了离散化处理。经过预处理后，获得有效数据样本996份。该数据集中的标记的分布情况是：对应“正常”标记的样本为807份，对应“异常”标记的样本189份。从两种样本中各随机抽取了80%作为训练集，20%作为测试集。

2.5 基于K-means的聚类特征生成

K-means[12]是一种被广泛使用的半监督算法，当作为有监督环境下的特征时被证实很有效，能提高有监督学习算法的绩效。在训练集{x(1),...x(n)}，每个x(i)∈▯n，随机选取k个聚类质心点为μ1,μ2,μ3,...μk∈▯n，重复迭代下列过程直到收敛。

对于每个样本i，计算其应该属于的类：

(4)

对于每个样本类j，重新计算该样本类的质心：

(5)

式中：c(i)表示样本i与k个类中距离最近的类别，c(i)∈{1...k}。k的决定是聚类分析中最重要的决策之一，当k较大时，所分类别中的同质性较好，但会无法得出有意义的分类方法；当k较小时，虽然能较好地完成聚类工作，但是会出现同质性较差的情况。在本研究中，利用K-means获得不同时间段内，不同就诊科室、诊断、医生性别的聚类特征以供NB使用。综合考虑先将k∈{2,4}代入K-means进行聚类分析。评估所产生各聚类群集之间的标准差来决定最终所使用的k值，标准差结果，见表2。

表2 数据集聚类标准差

注：考虑到最终的研究目标是二元分类，综合考虑选择k=4。

2.6 使用NB对数据进行有监督分类

在这个模块中，使用NB[13]对剩余的训练集进行分类，区分出“正常”样本和“异常”样本。NB分类器是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。设C表示类别节点集，cj∈C，[v1,v2,...vn]为n个特征属性，且假设这n个特征属性各自条件独立则P(cj|v1,v2,...vn)的定义如下：

P(cj|v1,v2...vn)=

(6)

定义：设Nex为样本数，Ncl为分类节点数，而N(cj)为属于分类cj的样本数。

Laplace校准：

(7)

M估计：

(8)

式中：N(vi)表示满足vi的样本数，N(cj&vi)表示属于cj分类且满足vi的样本数，而m是修正系数，在本研究中m=2。因此，本研究对原有的电子健康档案系统整合分类应用(EHRS Combined Classification Application，EHRCCA)[14]进行了扩展，加入了WEKA[15]中的NB实现，同时计算了医疗费用审核状态二元分类各自的事前概率，基于之前模块产生的特征子集，利用从训练集、离散特征子集和K-means的聚类特征子集构建出一个NB分类器模型。

2.7 后处理模块

经过前4个组件的处理，训练集中的每个条目均被分配了两个概率，分别是属于‘正常’的概率和属于“异常”的概率。在本模块中，使用了基于规则的方法，计算出最终样本条目所述的类别状态。规则定义如下：

Max(P(c1|v1,v2...vn),P(c2|v1,v2...vn))⟹Labela

(9)

式中，c1表示正常分类，c2表示异常分类，a表示训练集中的1条数据样本条目。

3 性能评估方法和结果

本研究使用了医学统计学领域通用的评价指标[13]对系统性能进行了评估并与基线方法的性能-频率分布法进行了对比，这些指标项包括准确率(Precision)、召回率(Recall)、F1分值(F-score)：

(10)

(11)

(12)

式中：TP表示金标准结果是正常，实际分类结果也是“正常”的样本数量；TN表示金标准结果是异常，实际分类结果也是异常的样本数量；FP表示金标准结果是异常，实际分类结果是正常的样本数量；FN表示金标准结果是正常，实际分类结果是异常的样本数量。表3给出了系统在测试集上输出结果的混淆矩阵，表4给出了相应的性能评估。

表3 系统在测试集上输出结果的混淆矩阵

表4 系统的性能评估结果

从测试集上的评估结果来看，正常分类和异常分类的F1分数分别达到了0.919和0.719，可以看出针对测试集，模型达到了设计要求。

4 结语

本文描述了结合半监督K-means聚类技术和朴素贝叶斯分类技术，利用费用审核中常见的一些关键指标构建数据挖掘系统。通过对医保费用数据子集的分析，找出隐含的数据模型，形成正确且公平的审核模式，可作为现有依赖基于规则的费用审核和人工抽样审核混合模式的合理补充。

1 中共中央关于全面深化改革若干重大问题的决定[EBOL].[2014-08-30].http://news.xinhuanet.com/politics/2013-11/15/c_118164235.htm.

2 2014年全省人力资源和社会保障工作要点 [EB/OL].[2014-08-30]. http://www.zjhrss.gov.cn/art/2014/2/27/art_12_57482.html.

3 “三医联动”促进医改[J] .医学信息学杂志,2012,33(3):94.

4 刘学鹏,曾世鸿,曲建明，等.协调工作在医院数字化建设中的作用[J].医学信息学杂志,2011, 32(4):33-35.

5 杨莹,李超峰,林达峻. 远程技术对医保结算的优化 [J] .医学信息学杂志,2014, 35(3):34-37.

6 李亚子,田丙磊,李艳玲，等.医疗健康信息二次利用中安全隐私保护研究[J].医学信息学杂志,2014, 35(9):1-6.

7 李亚子,尤斌,王晖，等.医疗保险信息泄露案例分析及对我国安全隐私保护的借鉴[J].医学信息学杂志,2014,35(2):6-12.

8 Hripcsak G, Bloomrosen M, Flatelybrennan P, etal. Health Data Use, Stewardship, and Governance: ongoing gaps and challenges: a report from AMIA′s 2012 health policy meeting[J].J Am Med Inform Assoc, 2014, 21(2): 204-211.

9 Rose J S, Fisch B J, Hogan W R, et al. Common Medical Terminology Comes of Age, Part One: standard language improves healthcare quality [J]. J Healthc Inf Manag, 2001, 15(3): 307-318.

10 Yang H, Spasic I, Keane J A, et al. A Text Mining Approach to the Prediction of Disease Status from Clinical Discharge Summaries [J]. J Am Med Inform Assoc, 2009, 16(4): 596-600.

11 Forman G. An Extensive Empirical Study of Feature Selection Metrics for Text Classification [J]. Journal of Machine Learning Research, 2003, 3(3): 1289-1305.

12 Domingos P. A Few Useful Things to Know about Machine Learning [J]. Communications of the Acm, 2012, 55(10): 78-87.

13 Nadkarni P M, Ohno-machado L, Chapman W W. Natural Language Processing: an introduction [J]. Journal of the American Medical Informatics Association, 2011, 18(5): 544-551.

14 Liang J, Zheng X, Xu M, et al. A Combined Classification Model for Chinese Clinical Notes [J]. International Journal of Applied Mathematics and Statistics, 2013, 49(19): 201-209.

15 Hall M, Frank E, Holmes G, et al. The WEKA Data Mining Software: an update [J]. SIGKDD Explor Newsl, 2009, 11(1): 10-18.

2015年《医学信息学杂志》征订启事

《医学信息学杂志》是国内医学信息领域创刊最早的医学信息学方面的国家级期刊。主管：国家卫生和计划生育委员会；主办：中国医学科学院；承办：中国医学科学院医学信息研究所。中国科技核心期刊(中国科技论文统计源期刊)，RCCSE中国核心学术期刊(武汉大学中国科学评价研究中心，Research Center for Chinese Science Evaluation)，美国《化学文摘》、《乌利希期刊指南》及WHO西太区医学索引(WPRIM)收录，并收录于国内3大数据库。主要栏目：专论，医学信息技术，医学信息研究，医学信息组织与利用，医学信息教育，动态等。读者对象：医学信息领域专家学者、管理者、实践者，高等院校相关专业的师生及广大医教研人员。

2015年《医学信息学杂志》国内外公开发行，每册定价：15元(月刊)，全年180元。邮发代号：2-664，全国各地邮局均可订阅。也可到编辑部订购：北京市朝阳区雅宝路3号(100020)医科院信息所《医学信息学杂志》编辑部；电话：010-52328673,52328674，52328671。

《医学信息学杂志》编辑部

Construction of Standardized Health Insurance Monitoring Model Based on Data Mining

LIANGJun,

SecondAffiliatedHospital,CollegeofMedicine,ZhejiangUniversity,Hangzhou310000，China;

SUNTing-xue,

SirRunRunShawHospital,CollegeofMedicine,ZhejiangUniversity,Hangzhou310000,China;

HEXiao-jun,LIJi-hui,XINGYa-wen,

SecondAffiliatedHospital,CollegeofMedicine,ZhejiangUniversity,Hangzhou310000,China;

XINJun-yi,

ZhejiangMedicalCollege,Hangzhou310000,China

The paper introduces the construction of standardized health insurance monitoring model based on data mining from the following aspects: data set establishment, model design, health insurance audition related indexes construction, original data set preprocessing, clustering feature generation based on K-means, data classification, post-processing model and so on, in order to improve audition efficiency of medical expenses and reduce the waste of medical resources.

Data mining; Health insurance fee; Abnormal detection

2014-12-03

梁俊，硕士，中级职称，发表论文8篇；通讯作者，辛均益。

浙江省人力资源和社会保障科学研究课题(项目编号：L2014A002)；浙江省医药卫生科技基金(项目编号：2013KYB140)。

R-058

A 〔DOI〕10.3969/j.issn.1673-6036.2015.03.010