APP下载

基于模糊神经网络分类器的医疗大数据研究

2018-09-06丁黎明陈启莲罗乙友

山西电子技术 2018年4期
关键词:分类器神经网络分类

龚 彦,丁黎明,陈启莲,罗乙友

(1.湖南医药学院,湖南 怀化 418000;2.怀化学院,湖南 怀化 418000;3中南大学,湖南 长沙 418083)

0 引言

随着医疗技术的发展和信息技术的进步,整个医疗系统已经遇到了海量数据和非结构化数据的挑战。如何处理医疗海量数据已成为医疗行业的一个研究热点问题,并成为处理海量医疗数据的必然选择[1]。医疗大数据的研究已经引起了学术界和工业界的广泛的关注。

我国在2015年推出了“互联网+”,大力推广在传统行业中应用大数据和云计算,实现企业的转型升级以及加速知识创新[3]。2014年“英特尔医疗行业峰会”都对医疗大数据的技术进行了深入探讨,对医疗大数据的应用进行了推广。

对于大数据,IBM曾经给出了一个4V定义:1) 数据规模大(Volume);2) 数据增长快速(Velocity);3) 数据结构多样(Variety);4)数据价值巨大(Value)。

随着医疗信息化的大量推广,医疗数据每天都呈数量级的增长,除了具有大数据所特有的特点外还具有其独特的特点。医疗数据包括纯数据、信号数据、图像数据、文字信息、以及语音数据,视频数据等等。由于疾病的发病过程在时间上有一个进度,所以在时间维度上具有不连续性。每天产生的大量信息中,存在大量的重复信息,有些信息可能还存在相互矛盾的记录。在处理医疗大数据时不能单纯的套用大数据的研究方法。还需要结合其特点对数据进行分析处理,才能最大的发挥数据的价值。

由于医疗信息数据通常包含了大量的小样本数据,巨大的数据维度,往往导致灾难性的后果[5]。这种高维数据结构是进行进一步分析数据的主要障碍,不仅严重的影响了系统性能,还可能导致各种数据分类器性能退化和精度下降,并增加额外的困难[6]。在医疗诊断中,排除无关特征可以提供对计算模型的理解以及便于数据的可视化,因此医疗信息中的特征选择称为医疗大数据处理中的主要研究领域之一。

本文通过设计模糊神经网络分类器来实现对医疗大数据的分析处理。主要集中在以下两个方面:1) 对医疗大数据训练集进行学习训练,进而分析获取医疗数据分类模型;2) 针对测试集使用上述分类模型,并将测试集中未知类别的实例进行分类,最终取得训练集中类别的估计值。

1 模糊神经网络

模糊系统也是人工智能的核心内容之一,目前将人工神经网络与模糊系统结合形成自适应神经模糊推理系统是一个研究热点问题[7,8]。模糊神经网络是以模糊技术和人工神经网络理论的相交叉部分作为研究内容。它利用模糊理论中的隶属度函数去描述某样本属于某一类别的程度。因此,当样本的隶属度值越大,说明此样本属于某一类别的程度越大[11]。

在本研究中将主要体现模糊隶属度函数的重要性,以及如何提高模糊规则的含义和分类精度。算法框架结构如图1所示。

图1 分类算法框架

模糊神经网络分类系统分类算法主要分为三个步骤,首先,对医疗数据根据神经模糊分类器进行分类;其次,根据选择方法使用与确定相关和不相关的数据集的功能;再次,就是对系统进行调整分类精度和性能评估。本文采用matlab中的神经网络工具箱实现模糊神经网络设计,其实现的流程如图2所示。

图2 神经网络实现流程图

具体的实现步骤如下:

Step1: 采集数据,获得神经网络的训练样本数据集。

Step2: 数据处理。为了让神经网络输入的训练集具有典型性,需要对样本数据集进行一些处理。例如归一化处理,主特征分析处理以及一些降处理等。最终得到的数据进行重新整理,作为神经网络训练的数据样本集。

Step3: 建立神经网络。

Step4: 训练神经网络,得到分类模型。

Step5: 测试数据。

Step6: 输出结果。

自适应模糊神经网络分类器是基于模糊规则的一种算法,可以通过权值来调节系统中特性,权值的影响对不同的分类来说也是不一样的。一个典型的自适应模糊神经网络结构如图3所示。

一个典型的多输入单输出的自适应模糊神经网络系统可以分为以下几个部分:

第一层为输入层:该层主要是进行数据的输入,如x1,x2。

图3 典型的自适应神经网络

第二层:该层的每个节点i是以节点函数表示的如图3中的A1,A2,B1,B2等方形节点,.使用隶属度函数来进行处理,

Q1,i=μAi(xi),i=1,2.

(1)

Q1,i=μB(i-2)(xi),i=3,4.

(2)

x1,x2为节点输入,μAi(xi),μB(i-1)(xi)是与该节点函数值相关的变量,可以将其视为是模糊集Z(Z={A1,A2,B1,B2})的隶属度函数。函数的选择按照具体的情况而定。

第三层:该层节点在图3中用∏表示,将输入信号相乘,将其乘积输出为:

O2,i=wi=μAi(x1)μBi(x2),i=1,2.

(3)

第四层:该层的节点如图3中的N表示,第i个节点计算第i条规则的wi与全部规则值w之和的比值为:

(4)

第五层:该层的节点i为自适应节点,其输出为:

(5)

第六层:该层节点是一个固定节点,计算所有输入信号的总输出为:

.

(6)

在医疗大数据处理过程中,已经获得了大量用于建模的输入和输出数据,大量的患者检测数据和其最终的病例之间形成了一个多输入多输出的数据映射,如图4所示。在医疗大数据分类系统中,不能凭借经验也不能期望数据中直接给出隶属度函数的形式和参数,这时应当选择可与输入、输出数据相对匹配的隶属度函数,反映数据变化的特点。

在图4中,同一层的节点具有相同的功能。与多输入单输出有稍微的差别。

在这里隶属度函数采用高斯函数,高斯函数参数比较少,而且平滑可导,便于计算。

(7)

图4 多输入多输出模糊神经网络结构

2 实验结果与探讨

使用matlab的模糊神经网络工具箱,进行验证,数据集采用UCI的Breast Cancer Wisconsin (Diagnostic) Data Set[10]。分类算法主要思路如下:

1) 为每一个分类创建一个模糊规则V,总模糊规则为U=VK,U为模糊规则的总数。

2) 集合Pij=1,i=1,2,…,u以及j=1,2,…,d;u为总的分类,d为主要属性的特征。

3) 使用K-均值聚类分析确定模糊神经网络的参数初始值。

4) 使用新的训练集训练,在训练中Pij的值需要大于等于0。

5) 获得训练结果和测试分类结果。

图5 隶属度函数对分类结果的影响

从学院附属医院采集部分数据作为训练用数据集并导入到matlab工作空间中。样品主要分为两类,即恶性和良性。每个样本包括30个特征属性值。图5中描述了输出误差随迭代次数的变化的曲线,可以通过调整隶属度函数来对分类结果产生影响。

3 结论

本文使用模糊神经网对医疗大数据的分类,通过对学院附属医院采集部分数据的分析处理。得了一个良好的隶属度函数对分类结果的影响仿真结果。同时在模糊神经网络在处理高纬度数据时,具有良好的性能和仿真精度。

猜你喜欢

分类器神经网络分类
分类算一算
神经网络抑制无线通信干扰探究
分类讨论求坐标
基于神经网络的中小学生情感分析
数据分析中的分类讨论
教你一招:数的分类
基于实例的强分类器快速集成方法
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于神经网络的拉矫机控制模型建立