APP下载

基于医院集成平台的数据质量核查系统应用研究与实现

2020-04-10甘伟谊

现代信息科技 2020年1期

摘  要:随着国家新医改政策的不断推进,医院集成平台建设得以快速推广和应用。长期以来,数据质量问题一直被忽视,导致其成为限制各类应用系统及医院集成平台效能发挥的主要瓶颈。通过分析数据质量问题的表现形式及产生的原因,分析不同应用场景下不同的数据质量管理需求,设计数据质量核查规则配置、数据质量核查、核查结果展示等功能,构建基于集成平台的数据质量核查系统,可以在技术层面,为数据质量管理工作提供一个工具,对缓解数据质量问题起到一定的积极的作用,从而提升医院集成平台的应用价值。

关键词:医疗数据质量;数据质量核查;医院集成平台

中图分类号:TP311.5       文献标识码:A 文章编号:2096-4706(2020)01-0097-05

Abstract:With the continuous promotion of the new national health reform policy,the hospital integrated platform construction can be quickly promoted and applied. For a long time,the problem of data quality has been ignored,resulting in data quality become the main bottleneck restricting the effectiveness of various application systems and hospital integrated platform. Through the analysis of forms of data quality problems and causes analysis of data quality management requirements of different application scenarios,design rules for quality verification data configuration,data quality verification,the verification results show the function of data quality check system based on hospital integration platform,can be at the technical level,to provide a tool for data quality management work,to alleviate the problem of data quality and play a positive role,so as to enhance the application value of Hospital Integration Platform.

Keywords:medical data quality;data quality verification;hospital integration platform

0  引  言

近年來,我国医院信息化建设如火如荼,已经逐步由一体化的信息系统发展到了专业化的临床信息系统和深层次的管理信息系统、患者服务系统,迈向了全面的信息共享和智能化的更高阶段,其核心问题就是集成平台的建设[1]。医院集成平台不仅统一了医院各业务系统之间的接口,实现了各业务系统之间数据的高度共享、互联互通,实现了统一的对外信息出口,同时,在集成平台中积累了大量的业务数据,并通过如“患者主索引”等信息实现对业务数据的有序组织与整合。医院集成平台中存储的大量业务数据已经成为医院继人、财、物后最具价值的资源。

随着基于医院集成平台的应用越来越多,越来越深入,医院对数据的依赖程度也逐步加大,集成平台中数据质量的好坏直接关系到各类应用中信息的准确程度,也影响着医院的生存和竞争力。数据质量作为影响管理层决策正确性的基础元素,逐渐被越来越多的医院领导者所关注[2],但在长期的医院业务系统维护和使用过程中,由于种种因素影响,各业务系统中的数据往往存在这样或那样的质量问题,常常出现不一致的情况。因此,建立科学有效的数据质量管理体系,对组织的数据质量实施全程管理,将数据质量管理以制度化、规范化的方式落实到数据生成、传递和使用的各个过程、方面和人员之中[3],是当前医疗机构信息化建设中的一项重要工作。

因此,我院在实施医院集成平台项目的同时,建设了基于集成平台的数据质量核查系统。该系统从技术层面上,提供了一个数据质量核查工具,实现了对来源于各业务系统的、通过ETL过程汇聚到集成平台的业务数据进行质量核查,主动暴露和预警核查出来的数据质量问题,实现了对数据质量的实时监控,对于严把源头数据质量关,督促业务系统不断改进与完善,提高数据准确性、一致性起到了积极的作用。

1  数据质量问题分析

1.1  数据质量问题的表现形式

医院集成平台的数据质量问题有多种表现形式,一般包括但不限于以下几种形式:(1)数据准确性问题,如空值、值域错误、格式错误等;(2)数据关联性问题,如数据间缺乏参照完整性;(3)重复记录问题;(4)错误的计算规则、错误的值;(5)不同的统计口径问题;(6)不同的命名规则问题;(7)数据粒度不一致问题;(8)数据上传或抽取稳定性、完整性问题;(9)数据上传或抽取及时性问题。

1.2  数据质量问题产生的原因分析

在医院的信息化建设过程中,有些数据质量问题是难以避免的,这主要是以下几个方面的原因引起的:(1)数据源问题。由于历史原因,各业务系统相对独立、缺乏统一规划,导致数据的不一致性;业务系统建设阶段缺乏数据质量意识,数据源本身存在大量的脏数据和噪声数据;数据存在人工操作的情况,导致数据的不一致性;不同数据源由不同的部门管理,各部门对数据的关注角度不同导致数据粒度、名称、表达方式上的多样性[4];缺乏统一的行业标准、各业务系统建设时期不同、厂商技术水平参差不齐导致数据不一致性;(2)数据抽取问题。对于数据集中备份、数据交互平台中的数据,由于数据抽取时间点不一致、ETL人员技术水平限制、对业务理解偏差等原因导致数据质量问题;(3)业务规则问题。业务系统的不同版本对数据的处理规则不同导致数据的不一致;各分支机构管理的差异、不同的业务处理规则导致数据不匹配;(4)统计口径问题。各系统之间的指标体系、编码规则及分类口径不一致导致数据质量问题[5]。

1.3  数据质量核查需求场景分析

(1)数据仓库数据抽取环节。对于数据抽取或上传流程中的前置库(如:ODS库),需要一套数据质量核查系统,对预抽取的数据进行质量核查,以确保进入数据仓库数据存储区的数据质量[6];(2)中心数据库运行环节。上级管理部门需要一套数据质量核查系统,对业务集中备份库中的数据进行数据质量核查、数据质量评分考核,分析并反馈存在的数据质量问题、提醒和督促各机构或业务部门规范数据采集和录入流程,提高业务数据质量。

2  数据质量核查系统设计

2.1  设计目标

设计一套对关系型数据库数据质量进行核查、对问题数据进行展示,易操作、易集成、易扩展、运行稳定的数据质量核查系统。该系统应具有以下特征:(1)可扩充的规则。数据质量核查由数据质量核查规则驱动。数据质量核查规则是一系列业务数据规范的集合,它以数据质量核查系统能够识别的形式存在于数据质量核查系统规则库中。数据质量核查系统提供灵活和高可扩充的核查规则配置功能,使用户能够通过简单的配置即可完成核查规则的动态管理;(2)全面的核查手段。数据质量核查系统提供字段级、记录级、表级不同层次的数据质量核查,可以对数据的准确性、时效性、有效性等通过预先设置的核查规则进行核查,并支持复杂的业务逻辑约束核查;(3)完善的核查结果展示。数据质量核查系统提供对核查结果的查询、统计、分析服务,可以对不符合规范的业务记录进行定位;可以在核查结果的基础上进行分析和统计,如分析不符合规范的数据记录分布情况和出现频度等;系统自动生成数据质量核查报告;(4)支持规则字典导入接口。提供规则字典批量导入接口,如通过行业标准化字典,初始化核查规则字典;(5)支持核查结果发布。提供数据核查结果发布接口,如定期将数据质量报告通过数据接口提供给第三方平台(如OA平台、企业邮件系统、短信平台),最终实现数据质量报告及时送达目标用户;(6)支持数据质量评分考核。系统支持设置各类数据质量问题的评分权重,根据数据质量核查结果,对数据提供单位或数据来源系统进行数据质量评分考核。

2.2  总体设计

2.2.1  软件架构

系统采用B/S架构,基于.NET平台开发。数据存储采用MS SQL Server 2016企业版或以上版本。Web端应用整体采用MVC的开发模式,包含如下层次:

展现层:ASP.Net Mvc 5.0+Kendo UI+Jquery,主要负责用户交互和结果显示,展现层包含控制模块,控制模块主要负责系统的访问控制、数据加载和注销,是系统的核心控制单元,控制模块是系统描述来组织工作。

应用服务层:实现了数据库实体映射以及根据业务需要自定義实体、定义各个业务接口、实现系统的主要业务逻辑,是系统主要的运算单元。

数据层:实现了静态数据和数据库数据的持久化管理,为业务层提供数据服务。

系统分层架构图如图1所示。

2.2.2  功能结构

系统主要功能设计如下:(1)系统管理功能。包括操作日志、运行日志、任务调度;(2)基础配置功能。包括值域字典、格式字典配置、系统字典配置、系统参数配置、数据库注册;(3)质量核查功能。包括核查规则配置、核查服务运行、核查结果记录等过程,数据质量核查的依据是数据核查规则,数据核查规则是一系列业务数据规范的集合,它以软件能够识别的形式存在于规则库中。质量核查类型包括:完整性核查、及时性核查、关联性核查、准确性核查、重复记录核查、约束性核查;(4)结果展示功能。包括核查结果明细查询功能、质量问题分类统计功能,以及按固定格式生成质量报告;(5)运行监控功能。提供对于数据检查服务和数据检查任务执行情况的实时监控功能;(6)评估考核功能。包括设置各类数据质量问题评分权重。根据评分方案及数据质量核查结果,对数据源进行数据质量评分考核。

功能结构图如图2所示。

2.2.3  运行时序

基于预设的规则,系统生成数据质量核查SQL包,通过调用SQL包,对目标数据库进行数据质量核查,并返回核查结果信息。运行时序图如图3所示。

2.3  关键功能设计

2.3.1  基础配置功能

(1)值域字典、格式字典配置:配置标准的、机构级的值域字典、格式字典,支撑核查条件设置;(2)系统字典配置:用于定义如核查方案、业务类别、质量问题级别等信息字典,支撑系统管理、核查结果统计;(3)系统参数配置:定义时间参数、机构参数、数据来源参数、是否已核查标识字段等,用于统一限定核查范围、核查条件,支撑核查服务;(4)评分权重配置:用于配置各类质量问题评分权重,支撑数据质量综合评分考核;(5)接口管理,包括规则字典导入接口、核查结果发布接口。通过行业标准化字典,初始化核查规则字典;定期将数据质量报告通过数据接口,提供给第三方平台(如OA平台、企业邮件系统、短信平台),最终实现数据质量报告及时送达目标用户。

2.3.2  质量核查功能

质量核查功能包括核查规则配置、核查服务运行、核查结果记录等过程。质量核查类型包括:准确性核查、关联性核查、重复记录核查、约束性核查、数据上传完整性核查、数据上传及时性核查等。

2.3.2.1  准确性核查

(1)用于核查目标数据表中特定字段是否为空值的非空核查,例如,核查《患者就诊基本信息登记表》中“患者姓名”字段是否为空,核查《输血记录表》中的“ABO血型代码”字段是否为空;(2)用于核查字段取值范围的值域核查,包括枚举性值域、区间性值域,例如,核查《患者基本信息表》中“患者性别编码”字段值是否符合标准规范,核查《手术记录表》中的“患者舒张压”字段值是否在合理区间;(3)核查字段格式是否符合规范的格式核查,例如,核查《患者就诊基本信息登记表》中的“电话号码”字段值格式是否符合电话号码格式,核查《患者就诊基本信息登记表》中的“身份证号码”字段值是否符合身份证号码格式。

准确性核查规则配置界面原型如图4所示。

2.3.2.2  关联性核查

用于对主从表间主外键关联关系核查。例如,核查《患者就诊基本信息表》(A表)与《门诊就诊记录表》(B表)中的记录是否满足关联条件:“A表卡号=B表卡号and A表卡类型=B表卡类型”。

2.3.2.3  重复记录核查

用于核查主键重复的记录。包括物理主键重复核查及逻辑主键重复核查。物理主键重复核查是指依据数据表的物理主键进行重复记录核查。逻辑主键重复核查是指,用户根据业务逻辑,自定义主键或联合主键,并据此逻辑主键进行核查。例如,核查《患者注册信息表》中联合主键“身份证件类型”+“身份证件号码”是否重复,判断该表中是否有指向同一患者的重复记录。

2.3.2.4  约束性核查

用于核查是否满足特定的复杂业务逻辑关系。约束性核查包括:(1)核查目标数据库统计的数据与业务系统数据之间差异的数据总量约束性核查,例如,核查“月门急诊人次差异”,比较集成平台前置机ODS库《就诊记录表》中就诊类型为“门急诊”的统计人次与门诊业务系统中的统计人次差异;(2)核查业务系统中发生的具体事件,在目标数据库中对应的表中是否有相应数据存在的存在性约束核查;(3)其他复杂业务逻辑约束核查。例如,核查业务系统提交的出院患者是否有相应的病案首页提交,即通过出院患者的卡号、卡类型在集成平台《病案首页信息表》中查找,是否存在相应数据。

2.3.2.5  数据上传完整性核查

用于核查关键数据表数据量,用以支撑数据上传完整性、稳定性分析。

2.3.2.6  数据上传及时性核查

用于核查数据上传及时性,通过客观记录数据上传的时间和业务产生的时间,判断数据是否上传及时。例如,核查《门诊就诊记录表》中字段“门诊就诊日期”与本条记录上传时间之间的差距。

2.3.3  结果展示功能

2.3.3.1  明细查询

提供核查结果明细查询服务,对不符合规范的业务数据记录通过表名、主键值等标识信息进行定位。支持按“核查方案”“核查执行编号”“核查执行时间”“核查类型”“规则编号”“数据源名称”“质量问题级别”等查询条件进行查询。例如,准确性核查结果明细查询,查询结果基本信息项包括:核查方案、核查执行编号、核查执行时间、核查类型(非空、值域、格式)、规则编号、数据源代码、异常记录主键、核查表名、核查字段名、质量问题级别、规则说明等。

2.3.3.2  分類统计

支持按“核查方案”“核查类别”“核查执行时间”“规则编号”“数据来源名称”“质量问题级别”等信息项进行分类统计。包括统计不符合规范的数据记录数量、分布范围和出现的频度等。例如,准确性核查汇总结果基本信息项包括:核查方案、核查执行编号、核查执行时间、规则编号、核查记录总数、异常记录总数、质量问题级别、规则说明等。

2.3.3.3  质量报告

按固定格式生成质量报告。按数据来源、核查方案、核查时间、核查执行编号、质量类型、问题级别、考核评分结果等角度进行统计分析,并输出数据质量分析报告。

3  结  论

当前,国内各医疗机构普遍处于拥有海量数据,却信息匮乏的尴尬局面[7],造成这种现象的一个重要影响因素就是系统中存在许多不完整、不规范或重复的数据,即脏数据。数据质量问题长期被忽视,导致今日数据质量问题成为限制各类信息系统以及医院集成平台效能发挥的主要瓶颈。

数据质量的改进不是单纯的技术问题[8],还涉及工作制度、流程、机制、管理、成本等诸多方面,各医院应以建设集成平台、临床数据中心等项目为契机,一方面通过技术手段,如通过实施数据质量核查系统,规范数据的采集、抽取、交互过程,发现问题并督促业务系统改进完善,另一方面,要让医院管理者、医疗信息化工作者以及各类信息系统应用者、参与者真正认识到数据的价值,加强标准化建设,通过管理手段,建立符合医院自身信息化应用水平及发展情况的数据质量管理体系,将数据质量管理以制度化、规范化的方式落实到数据生成、传递和使用的各个过程、方面和人员之中,实现对数据质量的事前、事中、事后全过程控制。

参考文献:

[1] 薛万国.对于医院集成平台技术的辨析探讨 [EB/OL].(2016-08-05).https://www.hit180.com/22392.html.

[2] 谌志华.数据质量管理的研究与应用 [J].信息与电脑(理论版),2013(1):107-109.

[3] 谷斌.信息系统建设中的数据质量管理体系研究 [J].情报杂志,2007(5):65-67.

[4] 赵阳立.浅谈供电企业“大营销”体系下的营销数据质量管理 [J].电子世界,2013(7):156-157.

[5] 安艳茹.基于知识的数据有效性管控系统研究与设计 [J].航空制造技术,2015(3):110-112.

[6] 高运华.基于数据仓库的数据质量分析和评估 [J].黑龙江科技信息,2014(20):165.

[7] 彭传薇,刘琛玺,李小华.浅谈医疗数据质量重要性及其影响 [J].解放军医院管理杂志,2005(5):467-468.

[8] 王守平.关于山东省社会保险大数据分析应用工作的思考 [J].山东人力资源和社会保障,2018(Z1):51-53.

作者简介:甘伟谊(1982-),男,汉族,江西樟树人,高级工程师,本科,研究方向:IT项目管理、医疗大数应用。