APP下载

大数据时代居民电子健康档案数据采集设计分析

2022-02-19赵云陈岗

兰台内外 2022年1期
关键词:大数据平台数据采集

赵云 陈岗

摘 要:随着大数据时代的来临,医疗数据共享的受关注程度不断提升,各地纷纷开展居民电子健康档案建设。基于此,本文简单分析居民电子健康档案数据采集原则、居民电子健康档案数据采集现存不足,深入探讨基于大数据的居民电子健康档案数据采集设计,以供业内人士参考。

关键词:居民电子健康档案;数据采集;大数据平台

为提供全生命周期的健康管理和医疗服务,必须做好居民电子健康档案数据采集工作,这一工作应充分结合大数据时代特点并较好融入人口健康信息平台。为保证居民电子健康档案数据采集取得预期效果,本文围绕该课题开展具体研究。

一、居民电子健康档案数据采集原则

1.统一标准。为采集居民电子健康档案数据,统一数据标准的应用极为关键,因此需要以《居民健康档案基本数据集》(WS365-2011)《卫生信息数据元目录》为统一规范的数据标准,为居民电子健康档案数据采集提供指导和依据。此外,还需要关注国家卫健委统计信息中心近年来的相关研究成果,如电子健康档案建设标准符合性测试规范,需得到应用该规范的评审测试系统进行居民电子健康档案数据验证,以此夯实跨机构、跨区域信息互联互通基础,保证超远距离的混合信息数据无损交换顺利实现。

2.简单实用。相较于纸质档案,电子健康档案在节约成本、提高效率方面的优势明显,但居民电子健康档案数据采集过程需要考虑支持成本等费用,全生命周期成本分析需要在规划、实施前开展,这里的全生命周期成本应包括初始投入成本、故障成本、检修成本、运行成本、废置处理成本。综合分析可以发现,在采集居民电子健康档案数据并对其进行更新时,不应单纯关注初始投入成本,运行成本也需要得到重視,以此结合数据标准,全方位开展项目科学规划,即可保证配套工作针对性完成,平台、数据接口的易维护性和可扩展性也需要得到重视,以此实现故障和检修成本控制,尽可能降低不必要浪费。

3.充分应用。采集居民电子健康档案数据仅仅属于过程,电子健康档案建成后对数据的利用必须得到重视,同时需关注数据的更新,依托人口健康信息平台可实现居民电子健康档案数据的共享,政府管理与决策也能够同时获得支持,居民电子健康档案数据将真正融入社会大数据,实现价值的最大化发挥。

因此,必须做好对居民电子健康档案数据的采集、更新、应用,后期应用可能面临的问题也需要充分考虑,如保证数据采集设计的操作简单化、管理规范化,设法做到外观简洁、界面大众,真正实现居民电子健康档案数据采集的易学、易用、够用、好用。

二、居民电子健康档案数据采集现存不足

1.质量低下。在以往的居民电子健康档案数据采集实践中,数据质量低下问题较为常见,这与信息化建设参差不齐的医疗卫生机构存在直接关联,受存在残缺和偏差的数据积累影响,数据记录、表达存在一定不确定性,部分人工记录的数据也很容易影响数据质量。对大多属于静态的相关数据来说,由于数据缺乏实时性,数据采集后的分析预测往往较为滞后,数据在真实性、精度、可用性方面存在的不足也需要得到重视。此外,居民电子健康档案数据采集需要对多方数据进行整合,存在较大的融合处理难度,采集汇聚个人监测、公共卫生机构、医疗机构等多源异构健康医疗数据的难度较高,这对电子健康档案建设带来的制约必须得到重视。

2.存储问题。集中式数据存储模式广泛用于很多区域人口健康信息平台中,多以关系型为数据库,如SQLSERVER、ORACLE,这种数据库虽然能够满足较小规模的居民电子健康档案数据采集、存储、利用需要,但随着其规模的不断扩大,受存储架构和计算能力不足影响,相关问题将随之出现。对于涉及数据量不断提升的电子健康档案,传统的集中式存储无法满足数据采集需要,数据存储、处理也很容易因此受到计算能力、性能瓶颈制约,必须设法提升其数据处理能力。

3.智能不足。对于迅猛增加的居民电子健康档案数据量,为保证最有价值部分能够从海量信息中获取,需要规避盲目收集、分析数据的情况。但结合实际调研发现,受缺乏智能算法支撑的影响,居民电子健康档案数据在采集后往往无法实现智能计算,简单堆积罗列的数据无法得到充分利用,这主要是由于大数据技术、人工智能技术的应用欠缺。在无法充分整理、分析海量数据的影响下,居民电子健康档案数据的价值发挥受到严重制约,无法用于健康管理、辅助政府决策等领域。

三、基于大数据的居民电子健康档案数据采集设计

1.数据采集内容。基于大数据的居民电子健康档案数据采集设计需要明确采集内容,结合《居民健康档案基本数据集》(WS365-2011)等规范,可确定居民健康档案信息需要包括健康教育管理、计划免疫管理、计划生育管理、健康体检管理、健康档案管理、上级医院的双向转诊服务、死亡人登记等信息。健康档案管理涉及老人、儿童、家庭、个人、残疾人、妇女、孕产妇、慢性病、传染病、精神病档案等内容的管理。居民电子健康档案数据采集接口需要实现对上述数据内容的采集,且能够在人口健康信息平台中更新。围绕上述数据进行分析可以发现,属于混合数据的各医疗单位临床数据存在低准确性、高复杂性、易丢失性等特点,长期以来存在较低的利用率,这类非结构化数据和半结构化数据可通过大数据技术进行处理,医疗数据增值、广泛应用能够由此实现。居民电子健康档案需要收集高精确度、高质量结构化数据,因此医疗数据采集本质上属于筛选、清洗数据的过程。

2.建设人口健康信息平台。为采集居民电子健康档案数据,需要建设人口健康信息平台,该平台能够依托先进、成熟的技术实现区域信息资源、卫生资源、服务资源共享,以及药品监管、急救保障、应急处置、卫生管理、医疗服务、公共卫生多方业务协同,可更好为群众提供优质、便捷的医疗保障和医疗卫生服务,打造功能完备、互联互通、资源共享、标准统一的区域人口健康信息体系,居民电子健康档案数据采集的科学开展极为关键,图1为平台架构示意图。

平台建设需要聚焦专网建设、数据共享与交换平台建设、云数据中心建设、平台对接、应用系统整合。专网建设可选择非复用专用网络建设方式,通过专线铺设可保证数据安全性,区县卫健局、市属医疗机构、第三方机构可由此联通,为数据采集提供基础;云数据中心建设需要打造可管理、可扩展、开放、动态的卫生云基础设施数据中心,信息数据完整性、安全性、可用性、分析能力可由此得到保障;云基础设施服务涉及网络资源系统、存储资源系统、计算资源系统,应用虚拟化技术开展统一基础设施云建设,上层应用的存储和计算资源通过IaaS服务模式提供,结合应用系统的需求云计算管理中心可建立存储磁盘空间及云主机;数据共享与交换平台需要联通PACS、MIS、LIS、HIS等医疗体系内部系统,满足数据交换共享需要。对于不同分布式信息服务系统来说,数据共享交换平台负责提供核心通信接口,基于消息的、安全可靠的通信服务能够在不同的应用程序/系统间实现,在有机整合各应用系统过程中居民电子健康档案数据采集能够更为便利、高效完成。通过对接各级医疗机构的信息系统和数据与交换共享平台,相关数据需要按照平台要求的格式和内容进行上传,通过采集清洗、转换处理数据,即可在数据库中加载居民电子健康档案数据;平台对接需要聚焦各级人口健康信息平台对接,收集相关健康档案数据、诊疗数据,未建立平台的地区需要将区域HIS、区域健康档案等对接人口健康信息平台,以此上传健康档案数据和诊疗数据,实现数据共享;应用系统整合需要结合各机构提供的数据,形成统一的居民电子健康档案,实现双向转诊、电子病历、疾病数据、检验检查结果等信息共享,平台需要同时负责管理电子健康档案,具体涉及认证管理、检索管理、存储管理、安全管理、访问权限管理等,实现电子健康档案的共建、共享。

3.数据采集接口设置。在开展人口健康信息平台建设的同时,为做好对居民电子健康档案数据的采集,还需要关注数据采集接口设置,具体需要明确接口范围及网络部署。需结合卫生管理部门规划和人口健康信息平台建设需要,以社区为信息采集点,通过在档案中登记基本的原始数据,并通过入户调查等方式进行后续健康数据更新,主要涉及医疗单位相关的居民检查结果,为保证居民健康档案的实时性和完整性,不應单纯在社区内部进行数据采集,同时需要加强对各级医疗单位的联系,因此需要将数据采集接口布置在各级医疗单位,实时更新居民健康档案数据。数据采集接口程序属于人口健康信息平台的重要组成部分,其处于基层公共卫生服务机构与居民健康档案间,负责数据传输,相关数据主要来源于社区门诊中心、医保数据中心、健康查体中心、各级医院电子病历系统。通过将相关数据存储至人口健康信息平台的云数据中心,即可实现居民健康档案自动更新、查询等功能。基于字段映射、数据采集接口程序能够转换相关信息为标准的结构化电子健康档案数据进行加密传送,更好满足人口健康信息平台建设;数据采集接口网络部署需要聚焦海量的居民电子健康档案数据,结合人口健康信息平台建设需要,具体采用分布式架构进行数据接口程序设计,居民健康档案可由此按照不同归属地在不同数据节点存储,人口健康信息平台的云数据中心需通过分布式数据路由重新定位数据获取需求,保证数据节点与数据中心对应连接,更好存储居民电子健康档案数据,不同区域居民电子健康档案数据的管理和查询可得到更好实现。人口健康信息平台云数据中心的前端可以是市级卫生管理单位、市县级医院客户端、社区卫生中心、个人查询终端,这类单位可通过接口程序上传数据并进行数据查询。分布式数据路由服务端与云数据中心需要连接,跨地区健康档案更新、查询、流转能够由此实现。如本地数据库节点不存在需要查询的健康档案,云数据中心可在分布式数据路由服务端支持下查询其他数据库节点。基于居民身份证号信息,分布式数据路由服务端可确定健康档案存储的数据中心,数据读取可基于需要实现,分布式架构的居民电子健康档案数据存储在人口健康信息平台的分区上,在测试与实施方面能够发挥积极作用。对于涉及居民隐私信息的居民健康档案来说,接口程序需要安全传输数据,因此需要设法开展SSL安全传输通道建设,避免传输过程中数据被监听、截获、伪造等情况出现,安全的居民电子健康档案数据能够更好地服务于人口健康信息平台运转。

4.数据采集方法。在应用数据采集接口的同时,人口健康信息平台在居民电子健康档案数据采集中还应用了两种数据采集方法,包括基于文档的数据采集方法、基于中间库的数据采集方法。为更好开展数据采集,数据共享与交换平台、云数据中心需要得到充分应用,为实现对实时通信、前置库、数据表、文件、数据分发等数据的采集,人口健康信息平台在接入新系统的过程需要结合其交换特性和需求,优选最佳接入方式,充分应用中间库和文档完成居民电子健康档案数据采集。基于文档的采集可直接进行文档上传或在处理后上传,基于中间库的采集可依托前置机实现数据上传。基于文档的数据采集指的是结合电子健康档案数据采集规范规定的文档格式开展数据采集,如通过对Webservice的调用向云数据中心直接上传交换文档,云数据中心负责审核文档格式、质量信息。更新频率较为缓慢的结构化数据、非结构化数据适合开展基于文档的数据采集,这种数据采集方法存在多方面特点,包括可扩展性与实时性高、服务接口无须结合采集业务变化进行调整或增加,同时维护成本较低,便于管理,但如果存在较大的数据内容采集需要,对服务器及网络将带来一定压力。对于以文档为载体的接入节点,数据上传可通过对Webservice的调用实现,但受到不同数据存储形式影响,数据上传过程也会出现一定差异,具体上传方式可细分为三类,包括接入节点直接上传、接入节点上传文档库中数据、转换数据为文档格式后上传。直接上传的数据以文档形式为载体,接入节点能够对上传文档进行直接调用。文档库中数据上传指的是文档库中存储的文档形式本地数据,通过对服务接口调用即可对其进行上传。数据转换对象为本地数据,其存储于关系型数据库中,具体转换需使用文档转换工具。文档库中涉及的文档格式较为多样,如CDA、XML、DOC、PDF、TXT等;基于中间库的数据采集需要聚焦中间库数据交换环节,中间库能够在该方法下成为接入节点与平台交换的中间环节。结合数据库表结构形式,库表交换可实现居民电子健康档案数据共享,适用于数据增量、更新频繁数据或涉及大量历史数据的交换,接入节点和数据共享与交换平台以前置数据库表为接口,以此实现数据的获取和推送,前置库可满足数据共享与交换平台的数据交换需要,桥接方式下的接入节点能够向前置库推送数据或获取数据,这种数据交换方式存在配置简单、不访问业务数据库、界线明确、运维工作量少、相对安全、责权清晰、实时性高、数据传输效率高、适应场景多等优势,能够较好服务于人口健康信息平台居民电子健康档案数据采集需要。

四、结论

综上所述,大数据时代居民电子健康档案数据采集设计存在较高推广价值。在此基础上,本文涉及的建设人口健康信息平台、数据采集接口设置、数据采集方法等内容直观展示了居民电子健康档案数据采集路径。为更好适应大数据时代,居民电子健康档案数据采集还应关注信息共享体系完善、相关人才队伍建设、新型软硬件应用。

参考文献:

[1]唐跟利,陈立泰.大数据驱动区域公共服务一体化:理论逻辑、实现机制与路径创新[J].求实,2021

[2]叶荔姗,赵 飞,陈 坚,徐秋实,许志坚.基于智能电子健康档案平台的大数据应用研究与实践[J].中国卫生信息管理杂志,2019

[3]张海红.大数据时代医院档案数据管理研究[J].山西档案,2019

(作者单位:柳州工学院)

猜你喜欢

大数据平台数据采集
Hadoop性能测试自动化研究
基于大数据的智能停车场管理系统设计
基于大数据分析的智慧仓储运营支撑平台设计
CS5463在植栽用电子镇流器老化监控系统中的应用
大数据时代高校数据管理的思考
基于广播模式的数据实时采集与处理系统
通用Web表单数据采集系统的设计与实现
袜业行业大数据平台的应用研究
基于开源系统的综合业务数据采集系统的开发研究