云计算视角下的智慧医院管理平台设计研究

2023-11-09王璐王柯荣

微型电脑应用 2023年10期

王璐, 王柯荣

(1.北京市大兴区人民医院,信息科,北京 102600; 2.河北工程大学,信息与电气工程学院,河北,邯郸 056038)

0 引言

伴随着医院业务规模的不断扩大,医院在运营过程中所产生的数据越来越多。医院传统的信息管理平台导致各科室之间信息缺乏共享,无法满足当前医院业务规模快速增长的需求,构建医疗综合管理服务平台解决信息存储瓶颈、系统信息孤岛的医疗信息化现状势在必行[1]。云计算的飞速发展为医院建立共享服务综合管理平台提供了架构支撑和处理海量数据的可能[2]。医疗信息化建设正飞速发展,但带来的弊端导致了医疗数据的指数型增长,医疗大数据给医院现有信息系统带了巨大的压力,且系统异构数据无法实现医疗信息的综合管理[3]。

基于前人的研究经验,并结合云计算技术,设计基于Hadoop平台的分布式存储及分布式计算的智慧医院管理系统,对Hadoop分布式存储计算资源调度算法进行优化,综合考虑医疗小文件的基本特征,融合词频以及权重数据参数,提出医疗数据文件调度算法,提升各种非结构化医疗数据的检索、分析,实现各科室医疗系统的数据有机共享和信息集成。仿真实验结果显示,本文提出的算法有效地提升了资源调度的效率以及数据查询的准确性。

1 云计算与分布式存储

1.1 云计算架构

云计算即为硬件资源的虚拟化,主要为应用软件虚拟化以及硬件的集群技术实现动态分配服务资源支撑系统运营的系统运行架构[4],如图1所示。

图1 云计算整体架构

图1中:SaaS(软件即服务)提供了用户网络访问通路,实现对各种应用的高速访问;PaaS(平台即服务)主要包含可以进行应用开发和部署的平台,为各类用户提供对应的服务,其具有灵活可调整以及资源便捷扩展能力,能够满足用户的多种需求;Iaas(基础设施即服务),其提供虚拟化、资源动态计算、资源动态分配及资源部署等服务,达到科学、高效部署资源的目的。

1.2 Hadoop云平台

Hadoop为云计算的具体实现技术,其结构如图2所示,核心包含分布式文件架构以及分布式的处理过程。HDFS为分布式文件系统,其为海量数据存储、查询的基础,存储原理为大文件分块、分类处理,并采用数据流的形式建立主节点与从节点的架构体系[5],能够实现海量数据的分布式存储。

图2 Hadoop体系结构图

Hadoop架构的另一核心为MapReduce分布式计算框架,其通过分布式并行计算编程模型,是应用程序开发人员无须关注分布式细节但仍可以完成程序的部署,原理为通过映射与化简组合实现[6-8]。具体如图3所示。

图3 MapReduce工作原理图

结合图3的数据显示,MapReduce通过JobTracker服务器、TaskTracker服务器以及Client服务器建立主从式结构,对作业进行提交、调度、运行获得运行结果,并通过TaskTracker对完成后的作业任务进行划分。本文设计的医院集成管理业务平台主要依托Hadoop架构实现。

2 基于Hadoop的智慧医疗系统设计

2.1 系统总体架构

基于Hadoop的智慧医院集成管理信息平台采用基础信息化设备设施层、数据分析层以及应用服务提供层三层架构。平台通过物联网设备的应用、分布式存储以及数据总线实现各类应用的部署、信息的存储和海量信息的检索、挖掘与分析[9]。通过该平台将各科室的信息系统进行物理和逻辑上的有机关联,解决了信息分散、数据孤岛、处理能力差等问题。系统应用部分功能主要包括门诊子系统、住院子系统、医学影像子系统、系统分析子系统等,具体如图4所示。

图4 基于Hadoop平台的智慧医院一体化管理系统

基础信息化设备设施层包括数据采集层和数据存储层。数据采集层主要应用于物联网设备结合IoT窄带传输网路进行数据采集和传输。数据存储层采用Hadoop的分布式文件存系统,同时,根据医院业务特点,医院信息化管理系统的大部分数据为医学影像、文件等非结构化数据,无法使用传统的关系型数据库存储。因此,本文采用廉价的商用服务器组建易于横向扩展的Hadoop集群,既节省了成本又提高了数据分析性能。

数据分析层采用Hadoop的MapReduce分布式计算进行数据挖掘。具体处理过程:数采环节、医疗业务系统传输的业务数据、非结构影像数据通过分布式存储完成数据的转换后在数据挖掘层进行预处理;完成数据清洗、归并整理后,对数据进行分块处理;使用Mahout工具库按照分割、并行计算以及规约三步完成对医疗海量数据的分析处理。

具体的数据挖掘过程采用交互层、逻辑层、代理层、挖掘层、存储计算层等几部分构成,层间使用接口互相通信。通过数据总线接口获得各医疗系统包括病历管理系统、门诊管理系统、医学影像系统等实时数据,采取将扫描数据集的过程并行化的方法,运用Hadoop的分布式存储以及分布式计算架构,将整个医院各科室的专业系统的业务数据平均地分成若干个数据块,分配到各集群中的各个DataNode中,当执行任务时,每个节点会扫描各自的数据块,从而达到并行扫描的目的。具体框架如图5所示。

图5 基于Hadoop的数据挖掘分析模型

2.2 医疗文件存储优化算法

医疗文件数据文件小、结构复杂、碎片式文件较多,如病例、检验报告、医学影像对应的文本信息、医嘱等信息文件。由于Hadoop的文件调度算法处理大文件比较理想,但对于医疗文件处理效率并不高,因此,本文结合系统的实际需要,对Hadoop的文件调度算法进行适应性改造,以提升对于医疗小文件的调度优化效率。Hadoop分布式文件系统的每个块的默认存储空间为64 M,如果块文件小于64 M时,定义医疗小文件为集合小文件。

本文改进的具体思路为在原有的分布式数据存储的过程中增加小文件处理搜索引擎,针对医疗小文件的特征数据特征抽取,通过计算不同特征向量的文本相似度,对高相似度的向量合并后,建立数据特征索引表。整体结构如图6所示。

图6 基于数据特征的分布式检索系统结构图

特征抽取的核心工作为提炼医疗数据集的各类数据特征,并识别每一类数据特征在整个医疗数据集的权重值,并将权重值排名前5位的词汇作为该类的特征值及特征向量代表数据集的量化表示:

Vi=((t1,w1),(t2,w2),…,(tn,wn))

(1)

式(1)中,i为数据集的序号,Vi为某一数据集的具体特征向量,tn为数据集内的特征词集合,wn为特征词的权重,n为特征词的数量。权重值采用Robertson &Sparck Jones特征权重计算法,并结合词频对改公式进行了优化:

(2)

(3)

图7 数据特征抽取模块结构图

将经过计算并排序的特征值排序文件结果输出到HFDS文件中,并建立数据特征索引,对于基于医疗数据特征的分布式数据挖掘、分析系统通过数据特征索引表对节点的特征以及所在的地址进行存储,并通过三维表〈ID,Character,Address〉表示,其中,ID表示类别编码,Character表示数据特征,Address表示访问地址。具体建立过程如图8所示。

图8 数据特征索引表建立过程图

分块文件系统通过将排序好的特征文件进行解析产生特征向量,并由主服务器统一计算相似度后,对相似向量进行合并生成特征索引表。

3 实证结果与分析

3.1 实验数据及环境

实验采用国内青云平台访问资源的调度过程,测试改进的资源调度算法,并模拟了3组业务场景,包括复杂度较高的医学影像查询数据、复杂度底的病人病历病志查询数据、医院财务数据查询分析等。建立3组作业按复杂度由高到底设置3个作业的优先级,具体如表1所示。

建立实验数据中心对上述3条作业信息进行存储,并采用5台PC机组成Hadoop集群开展模拟仿真实验。不同PC机的性能存在差异,导致每台PC机的作业效率也存在不同。通过将组成的Hadoop集群在Linux平台上运行,达到近似模拟实际应用环境的目标。实验过程中,结合3种作业的各自运行时间,测试本文改进调度算法的执行效率以及运行实际情况。

3.2 实验比较

实验主要从改进调度算法整体执行性能提升的方面以及具体的改进算法本身的性能两个方面展开。将Hadoop框架本身的3类调度算法(F1F0算法、Capacity调度算法、Fair调度算法)与引入本文的改进算法进行比较,得到算法优化前后对3条作业的运行时间,比较结果如图9所示。

图9 作业1—3在调度算法优化前后的性能对比图

由图9可知,F1F0算法、Capacity调度算法、Fair调度算法对3条作业的运行时间均明显缩短,尤其是对文档类以及图像类文档的整体运行时间更为明显,即引入改进算法之后可以有效提升对非结构化医学文件的调度效率。

对提出医疗文档的搜索算法的查询准确率进行实验,主要从对资源占有以及网络带宽占有关的角度进行有针对性的实验,实验过程主要对文档特征和词频参数进行对比。系列1为未考虑词频的全文档遍历搜索,检索范围为文档整体。系列2为特征词频参数设置为1/3时需要检索文档。系列3为特征词频参数设置为2/3时需要检索文档。3个系列的检索结果与文档访问数量关系对比结果如图10所示。

图10 检索结果与文档访问数量关系图

由图10可以发现,在遍历的文档结果数据一致的前提下,本文提出的引入词频的搜索算法需要访问的文档数量明显小于全节点文档遍历Hadoop自带的算法,且访问文档数量与特征维数正相关。实验结果显示,本文提出的医疗小文件搜索算法应用于Hadoop调度算法中,极大地降低了框架本身全文检索的范围,提升了调度工作的性能,适用于医院大量异构结构以及非结构化文档的检索、调动以及挖掘分析工作。

4 总结

医改的逐步推进、信息化技术的日益精进为我国大型医院各时期建立的各个专业化系统的整合提供了技术支撑。本文使用Hadoop的分布式框架综合考虑医疗信息与数据的特异性,建立了基于Hadoop平台的医院一体化管理系统,发挥了Hadoop分布式存储以及分布式计算的高效性,实现了各个系统之间协同高效的工作以及各类异构临床信息的共享、整合和集成应用,提高了医院的运营效率、管理效率。仿真实验显示,本文的优化改进调度算法有效地提高了资源调度效率,具有一定的实用价值。