APP下载

基于深度学习的甲状腺结节良恶性预测方法研究

2017-07-05陈德华周东阳乐嘉锦

网络安全与数据管理 2017年12期
关键词:恶性准确率结节

陈德华,周东阳,乐嘉锦

(东华大学 计算机科学与技术学院,上海 201620 )



基于深度学习的甲状腺结节良恶性预测方法研究

陈德华,周东阳,乐嘉锦

(东华大学 计算机科学与技术学院,上海 201620 )

甲状腺结节是一种常见临床疾病,其发病率逐年增高。对于诊治甲状腺结节的首要问题是明确及鉴别其良恶性质。为了提高甲状腺结节良恶性预测的准确率,提出一种基于深度学习的甲状腺结节良恶性鉴别方法。实验在真实医疗数据集上对比了深度学习算法与传统BP神经网络和逻辑回归算法,结果表明基于深度学习的预测方法具有最高的准确率,在非稀疏数据和稀疏数据集上分别达到94%和88.84%。

甲状腺结节良恶性预测;受限玻尔兹曼机;深度信念网络;深度学习

0 引言

在甲状腺结节的临床治疗过程中,甲状腺结节良恶性的鉴别是甲状腺结节诊治的基础。目前,穿刺检查和病理检查是鉴别甲状腺结节良恶性的主要手段。但是,穿刺检查和病理检查具有损伤性,对患者的正常甲状腺组织造成破坏。因此,如何有效地利用无损伤的超声检查结果来预测甲状腺结节良恶性,对于甲状腺结节诊治具有重要的意义。

为了帮助医生提高临床诊断的准确性,让患者避免不必要的检查过程,降低患者误诊率,近年来越来越多的学者试图通过机器学习、专家系统等人工智能方法进行甲状腺结节良恶性鉴别。深度学习技术是机器学习领域中最新研究成果,通过构建具有很多隐藏层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性,因此,与传统的机器学习方法相比,利用深度学习来学习特征,更能够刻画数据丰富的内在信息,并展现出强大的从样本集中学习数据集本质特征的能力[1]。

但是目前大多数研究都是基于甲状腺超声图像数据,或者经过挑选之后比较完整的文本特征数据,采用传统的机器学习方法训练模型,没有考虑到真实医疗数据存在稀疏性的问题,因此预测结果还有很大的提升空间[2]。医疗数据的稀疏性主要体现在数据提取的缺失性上,由于患者病症的不同、医生诊断描述方式不同以及提取的规则不同,难免会导致许多缺失数据,也即稀疏数据。

为此,本文考虑到深度置信网络在预测上的优势,结合甲状腺结节超声数据的稀疏性提出了一个基于深度信念网络(DBN)的甲状腺结节良恶性预测方法,该方法能够利用深度学习的优势,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,可以从稀疏的不平衡的数据中挖掘出更有价值的特征,从而使分类或预测更加容易。

1 相关工作

通过机器学习方法提高对疾病的诊断预测准确率已经成为智慧医疗的一个重要实现途径,其中很多学者在甲状腺结节的诊断分类方面做了相关研究。

在甲状腺结节的预测鉴别研究上,熊伟等人提出了一种利用局部纹理特征与多示例学习相结合的方法,利用KNN算法来实现对甲状腺结节的分类,准确率达85.59%[3]。Ma Jieming 等人提出一种基于SVM的甲状腺结节预测方法,在普通SVM模型的代价函数中加入惩罚项进行优化,有效地防止模型的过拟合,并且准确率达86.6%[4]。李前程等人将结节的良恶性作为因变量,以超声表现作为自变量,采用二分类logistic 回归分析筛选出对甲状腺结节良恶性有显著鉴别作用的超声指标并建立回归模型,准确率达89.91%[5]。

2 研究模型

2.1 DBN模型

p(v,h(1),h(2),…,h)=

(1)

图1 DBN网络结构

在训练阶段,在可视层会产生一个向量v,通过它将值传递到隐藏层。反过来,可视层的输入会被随机选择,以尝试去重构原始的输入信号。最后,这些新的可视的神经元激活单元将前向传递重构隐藏层激活单元,获得h。执行这种反复步骤叫做吉布斯采样(Gibbs Sampling)[7]。而隐藏层激活单元和可视层输入之间的相关性差别就作为权值更新的主要依据。

在预训练后,DBN可以通过BP算法根据误差函数进行逆向调节,从而对判别性能做调整。这个性能会比单纯的BP算法训练的网络好。这可以很直观地给予解释:DBN的BP算法只需要对权值参数空间进行一个局部的搜索,这相比BP神经网络来说,训练是更快的,而且收敛的时间也更少[8]。

2.2 RBM神经网络

RBM是DBN 的核心组件之一,它由一个可见层V和一个隐藏层H组成,层间的节点两两相连,层内的节点不相连。

RBM模型训练过程如下:

Step 1初始化

(1)输入训练特征

(2)给定训练次数J

(3)指定可见层和隐藏层的单元数

(4)初始化权值矩阵W和噪声控制参数ɑ,b

Step 2训练

FOR iter=1,2,…,JDO

{

1.调用RBM,生成ΔW,Δa,Δb

2.刷新参数W,ɑ,b

}

下面讨论可视层节点和隐藏层节点间权值W计算过程。

可见层变量v和隐藏层变量h的联合组态(joint configuration)的能量可以表示为:

(2)

其中θ={W,a,b}为模型参数。

而某个组态的联合概率分布可以通过Boltzmann分布来确定:

(3)

隐藏层节点之间是条件独立的,即

(4)

对公式(4)进行因子分解Factorizes,得到在给定可视层v上,隐藏层第j个节点为1或者为0的概率:

(5)

同理,在给定隐藏层h的基础上,可视层第i个节点为1或者为0的概率也可以容易得到:

(6)

给定一个满足独立同分布的样本集:D={v(1),v(2),…,v(N)}需要学习参数θ={W,a,b}。

通过最大似然估计得到L最大时对应的参数W:

(7)

(8)

3 实验结果与模型评估

3.1 实验数据采集

所有实验数据均来自某三甲医院患者的实际超声指标特征。为了检验本文所构建的DBN模型的对稀疏的超声数据预测效果的提升,分别使用了两组不同的实验数据。实验训练模型数据分别为从30万条超声诊断数据抽取的3 000条指标非稀疏的数据和3 000条稀疏的数据。

3.2 数据预处理

实验前先将非结构化的医疗数据进行结构化处理[9],提取出需要的指标以及对应的文本描述。然后对结构化后的数据进行数据清洗,解决异常值、缺失值等问题。接着将表示特征指标程度的文本变量转换为算法所能处理的数值型变量[10]。最后数值化后超声指标中各个特征的物理意义和数量级是均不相同的,所以,需要对结构化后的数据进行归一化,统一衡量标准值,本文采用Z-score标准化方法。

3.3 实验结果及分析

两组数据分别使用1层隐藏层DBN模型(DBN1)、2层隐藏层DBN模型(DBN2)、BP神经网络模型以及逻辑回归(LR)进行预测,评价指标选为准确率、召回率和 F 系数,模型的预测效果对比结果如表1、表2所示。

表1 非稀疏数据实验对比

表2 稀疏数据实验对比

由表1可以看出, DBN 模型在准确率、召回率和F值上都已超越逻辑回归,DBN1模型的准确率略高于传统BP神经网络模型,召回率稍低,F系数几乎持平。但是DBN2模型3项指标都略优于BP神经网络模型。

由表2可以看出,DBN1模型在准确率、召回率和F系数上已经超越传统BP神经网络模型和逻辑回归, DBN2更是远优于BP神经网络模型和逻辑回归模型。

从两组实验可以看出DBN模型在非稀疏数据上虽然占优,但是优势并不明显。而在稀疏性数据上,DBN模型全面超越BP神经网络和逻辑回归。由此可以得出DBN模型非常适合对稀疏性数据进行分类。

4 结论

DBN对高维特征向量具有很强的提取特征和分类特征的能力,通过多层隐藏层可以尽可能保留数据的特征,能够有效解决稀疏数据特征信息密度低的问题。实验结果表明,DBN 在稀疏性数据预测任务中的效果好于BP神经网络和逻辑回归,是一种非常适用于对稀疏数据进行分类的算法。未来的工作主要从两个方向入手:首先,使用更科学的方法对数据进行预处理,使得处理后的数据尽可能保留其特征;其次,针对稀疏数据的特征使用更为优秀的DBN网络结构,使算法对数据集分类结果更有说服力。

[1] HINTON G E. A practical guide to training restricted boltzmann machines[M].Berlin: Springer Berlin Heidelberg, 2012.

[2] 黄海新, 吴迪, 文峰. 决策森林研究综述[J]. 电子技术应用, 2016, 42(12):5-9.

[3] 熊伟,龚勋,罗俊,李天瑞.基于局部纹理特征的超声甲状腺结节良恶性识别[J]. 数据采集与处理, 2015,30(1): 186-191.

[4] Ma Jieming,Luo Si, DIGHE M, et al. Differential diagnosis of thyroid nodules with ultrasound elastography based on support vector machines[C]. Ultrasonics Symposium (IUS), 2010 IEEE, 2010:1372-1375.

[5] 李前程,孙丽娜,吴双,等. 高频超声及弹性成像对甲状腺结节性质鉴别诊断的logistic回归分析[J]. 中国地方病防治杂志, 2015(4): 291-293.

[6] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J].Neural Computation, 2006,18(7):1527-1554.

[7] GEMAN S, GEMAN D. Stochastic relaxation, gibbs distributions, and the bayesian restoration of images[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1984, 6(6):721-741.

[8] 蒋良孝, 李超群. 基于BP神经网络的函数逼近方法及其MATLAB实现[J]. 微型机与应用, 2004, 23(1):52-53.

[9] 陈德华,冯洁莹,乐嘉锦,等. 中文病理文本的结构化处理方法研究[J]. 计算机科学, 2016,43(10): 272-276.

[10] 戚湧,陈俊,李千目. 基于冗余消除和属性数值化的XACML策略优化方法[J]. 计算机科学, 2016,43(2):163-168.

Thyroid nodule benign and malignant prediction based on deep learning

Chen Dehua, Zhou Dongyang, Le Jiajin

(School of Computer Science and Technology, Donghua University, Shanghai 201620, China)

Thyroid nodule is a common clinical disease and the incidence has increased year by year. For the diagnosis and treatment of thyroid nodules, the primary problem is to identify the benign and malignant nature. In order to improve the prediction accuracy of benign and malignant thyroid nodules, this paper presents a method for the identification of benign and malignant thyroid nodules based on deep learning. Through experiments,the deep learning algorithm is compared with the traditional BP neural network and logistic regression in the real medical data set. The results show that prediction method based on deep learning has the highest accuracy, reaching 93.57% and 88.84% with the non-sparse data and the sparse data set.

benign and malignant thyroid nodules prediction; limited Boltzmann machine; deep belief network; deep learning

TP181; TP183

A

10.19358/j.issn.1674- 7720.2017.12.004

陈德华,周东阳,乐嘉锦.基于深度学习的甲状腺结节良恶性预测方法研究[J].微型机与应用,2017,36(12):13-15.

2016-12-20)

陈德华(1976-),男,博士,副教授,主要研究方向:数据库,数据仓库与智慧医疗。

周东阳(1990-),通信作者,男,硕士研究生,主要研究方向:数据工程。E-mail:zhouguang.1@163.com。

乐嘉锦(1951-),男,教授,博士生导师,主要研究方向:数据科学管理及软件工程理论与实践。

猜你喜欢

恶性准确率结节
乳腺结节状病变的MRI诊断
肺结节,不纠结
发现肺结节需要做PET/CT吗?
恶性胸膜间皮瘤、肺鳞癌重复癌一例
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
卵巢恶性Brenner瘤CT表现3例
体检查出肺结节,我该怎么办
高速公路车牌识别标识站准确率验证法