APP下载

BP神经网络的电子病历数据挖掘研究

2018-11-07张海阳毛健

电脑知识与技术 2018年21期
关键词:电子病历BP神经网络数据挖掘

张海阳 毛健

摘要:随着医疗信息化的发展,电子病历(EMR)、HIS等醫疗软件系统得到广泛的应用,并在应用过程中产生了海量的数据,如何从这些海量数据中分析出潜在的规律已成为研究热点。本文将采用BP神经网络算法用来研究和探讨导致糖尿病患者过早死亡的独立风险因素。

关键词:电子病历;BP神经网络;数据挖掘

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)21-0224-02

Abstract: With the development of medical informatization, medical software systems such as Electronic medical records (EMR) and HIS have been widely used, and a large amount of data has been generated in the application process. How to analyze the potential laws from these massive data has become Research hotspots. This article will use BP neural network algorithm to study and explore the independent risk factors that leading to premature death of diabetic patients.

Key words: Electronic Medical Record; BP neural network; datamining

1 概述

1.1 电子病历

电子病历(EMR,Electronic Medical Record)即电子化的病案系统或患者记录系统,是用计算机实现病人医疗记录的存档、管理和传输,是对患者信息及其相关处理过程综合化的体现。它并不仅仅只是包含纸质病案的所有内容,而且与医院其他信息系统相连接,如HIS、RIS、心电图、LIS、超声、内窥镜等声像图文信息,EMR系统的数据完整性、数据处理能力、使用便利性、远程会诊、数据统计分析等是传统纸质病历无法比拟的,是医疗信息化的巨大飞跃。美国国立医学研究所将其定义为: EMR 是基于一个特定系统的电子化病人记 录,该系统提供用户访问完整准确的数据、警示、提示和临床决 策支持系统的能力。通过电子病历实现关键医疗信息的共享,已经成为医疗卫生业的发展趋势,同时也成了医院信息化的 核心[1]。

1.2 数据挖掘

数据挖掘的定义 数据挖掘(data mining , DM)是 20 世 纪 90 年代发展起来的一门信息处理技术。 其主要原理是从 大量的、不完全的、有噪声的 、模糊的、随机的实际应用数据中,提取隐含在其中人们事先不知道的、但又是潜在有用的 信息和知识的过程。 提取的知识可以用来在数据库记录中找出其中的联系,并最终形成决策支持系统[2]。数据挖掘与统计学紧密相连,通过挖掘算法,对大量的复杂的数据集自动进行探索性分析,如何选择数据挖掘算法,如何对被挖掘的数据进行建模,已成为数据挖掘的关键所在。

1.3 BP人工神经网络算法

BP人工神经网络算法(Back Propagation Artificial Neural Networks ,ANN)是在1986年由Rumelhart和McCelland率先提出的,是一种不断循环修正的多层前馈网络,BP神经网络模型由输入层、隐层和输出层构成,如图1所示,输入层、多个隐层,输出层之间通过神经元互联,各层的神经元无连接,网络无反馈[3]。

BP算法是一种有师算法,即在有导师指导下的误差反向传播算法,它的基本原理是通过梯度下降算法不断修正,直至误差变为可接受的程度。在此过程中对根据期望值和输出值的差值,对网络的连接权值进行调整,直至得到所期望的输出。

2 BP人工神经网络在电子病历中的应用

根据电子病历中存储的数据差异,电子病历数据可分为文本、图像、波形、时间序列等,根据数据结构的不同,可以分为结构化数据、半结构化数据和非结构化数据等[4]。BP神经网络提供了强大的数据挖掘和分析方法。首先确定研究方向,准备样本。此次我们将糖尿病患者过早死亡的独立风险因素作为研究目标。这些数据在电子病历中都是以文本的形式存在的,我们将这些数据进行清洗、抽取组成样本库,确定出需要的样本属性。本次研究的样本属性主要是导致糖尿病患者过早死亡的独立风险因素的病历号、住院号、疾病编码、姓名、生日、住址、心里、呼吸、乳腺癌、膀胱癌、肝癌、肺癌、肠癌等属性。我们把这些属性作为隐层的输入向量hi=(hi1,hi2,…,hip),一共抽取20000个病人样本,其中男性和女性各占50%,则输入层的样本对象为输入向量x=(x1,x2,x3,…,x20000),输出层是各种独立风险因素血管类疾病、感染性疾病、退化性疾病、癌症等,输出向量为yo=(yo1,yo2,…,yoq)。

样本训练,BP人工神经网络模型建立好后要进行学习训练,从正常人群组成的样本进行学习,输入训练样本,经过多次迭代后,通过不断修改连接权值,误差e达到可接受的程度,则求出发病率hi,阈值,最后输出向量yo=(yo1=3784,yo2=3423,…,yo6=3456)。如图3所示,通过数据分析得出:糖尿病患者早死风险因素中肺癌、肝癌、胰腺癌、肠癌、膀胱癌和血管性疾病的概率比较大,其次为感染性疾病、自身伤害、退化疾病等。

3 结论

BP人工神经网络具有通过训练学习得出任何复杂函数映射的功能,这一功能使得它非常适合处理内在逻辑复杂、从外部无法解决的问题,它的自学和推导能力也成为解决复杂问题的关键。

参考文献:

[1] The Computer-Based Patient Record: An Essential Technology for Health Care,Revised Edition ( 1997) Institute of Medicine (IOM) [OL].http: / /www.nap.edu /openbook.php? record_id = 5306&page;=55.

[2] 范明, 孟小峰.数据挖掘:概念与技术[M] .北京:机械工业出版社, 2001.

[3] Wright Adam , Chen Elizabeth S , Maloney Francine L.An automated technique for identifying associations between medications, laboratory results and problems [J] .Journal of biomedical informatics, 2010 , 43(6):891-901.

[4] Lagoe R J. Basic statistics for clinical pathway evaluation[J]. NursEcon, 1998, 16: 125-31.

【通联编辑:梁书】

猜你喜欢

电子病历BP神经网络数据挖掘
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究