APP下载

基于大数据的影像分析模型的设计

2022-07-19高西

粘接 2022年7期
关键词:模型大数据设计

摘要:关于皮肤领域的大数据可以从不同维度获取,如疾病维度、病人维度、数据维度等,根据皮肤影像分析所需要的大数据维度,进行关于皮肤影像分析模型的设计。采用深度学习方法,对皮肤影像进行分类,根据皮肤影像对各类皮肤病诊断的优势,为皮肤科医生提供量化的诊断依据,从而完成对皮损类别的预测,帮助皮肤科医生对病人病情进行准确分析和判断。

关键词:大数据;皮肤影像;模型;设计

中图分类号:R751;TP391 文献标识码:A 文章编号:1001-5922(2022)07-0170-05

Design of skin image analysis model based on big data

GAO Xi

(1.Dermatology, University-Town Hospital of Chongqing Medical University, Chongqing 401331, China;

2.Medical Data Science Academy of Chongqing Medical University,Chongqing 400010,China)

Abstract:Big data in the skin field can be obtained from different dimensions, such as disease dimensions, patient dimensions, data dimensions, etc. According to the big data dimensions required for skin image analysis, the design of the skin image analysis model is carried out. Using deep learning methods to classify skin images and according to the advantages of skin images in the diagnosis of various skin diseases, we could provide dermatologists with a quantitative diagnosis basis, thereby completing the prediction of skin lesions, and helping dermatologists to diagnose the patients condition with accurate analysis and judgment.

Key words:big data; skin image; model; design

基于医学经验的模型与基于数据驱动的模型同属于皮肤影像分析模型的策略。在皮肤影像分析模型中,对于疾病预测所使用的风险因素,需要由经验丰富的领域专家提供[1]。通过医生提供的关于皮肤病的风险因素,建立风险预测模型,从而预测皮肤病发病的概率。基于数据驱动的模型,使用现有的数据,通过机器学习的方式获取预测风险值,并对所有可能存在的风险因素建立数据驱动模型,从而实现对疾病的准确判断[2]。在本次研究的基于大数据的皮肤影像分析模型设计中,依靠近年来广受关注的人工智能技术,以数据驱动方法为核心,从大数据层面,概括关于皮肤影像分析所需要的研究内容,并将皮肤影像数据进行存储,为皮肤科医生的诊断提供数据支撑。

1基于大数据的皮肤影像分析

1.1以病人为中心

以病人为中心的数据组织方式分为以下几种类别:(1)病历:病人的就诊信息、过往病史、过敏史以及现在的病情史;(2)影像:皮肤超声、皮肤CT、皮肤病理;(3)连续数据:病人数据跟踪;(4)数据整合:同一病人不同时间段的数据;(5)数据检索:根据病人的个人情况进行数据检索[3]。

1.2以疾病为中心

表示针对特定的疾病研究而设定的一种数据组织形式,通过整理典型病例,按照亚型分布组织或者3间分布组织的形式展开对典型病理的研究[4]。

皮肤影像中,摄影和图片分辨率高,病理多;因此对于数据量的要求也非常高,医院在数据存储空间方面要以5T起步。从大数据的深度学习进行分析,ImageNet猫和狗的鉴别模型品种多达1 000多种,一般的医疗影像所使用的模型,如果要得到一个卷积神经网络,则需要的皮肤影像也高达106级;如果按照皮肤病种进行计算,病人的病历图片需要500张以上;如果按照手写体进行识别,其数据量也高达106级,可以获取较好的识别效果。因此,如果皮肤影像的数据量高达上百万,且数据均衡,则可以获得较好的分类识别效果[5]。

2皮肤影像分类

2.1数据集

在深度学习中,大量的样本学习十分重要,如果没有充足的训练数据基础,则卷积神经网络无法获取准确的样本特征,从而陷入困境中。因此,為了让卷积神经网络可以具备较好的泛化功能,需要为卷积神经网络提供足够多的训练样本[6]。通过构建皮肤影像数据库得到海量的图像,该数据库不仅空间大,而且各类的标签信息非常完整,疾病种类精细。在庞大的数据库中,精细的标签信息为卷积神经网络提供了强大的支撑力。在ISIC皮肤病的数据库中,或者是一些其他的皮肤病数据库中,数据都被进行精细分类。在数据的准备阶段,一种称为PA的自动递归算法得到了应用,将上千种的皮肤病按照特定的图像进行展示,如图1所示。每一个类型中所包含的数量值控制在1 000幅以内,在保证精细度的同时也会为其提供充足的数据基础,从而更加有利于深度学习。在图1的结构中,分为Ⅰ、Ⅱ 级两大类,每一等级都对应了具体的皮肤病[7]。

在以往的研究中,主要针对皮肤镜图像进行分类,或者是对组织学图像进行分类,这2种图像类型均属于高标准化的图像[8]。在构建的数据库中,涵盖的图像非常多,在尺寸、角度以及光照方面都存在一定弊端,给分类带来困难。传统的识别方式无法处理关于临床图像的分类问题,因此研究了一种基于卷积神经网络的方法,将皮损分类进行精度划分[9]。

2.2分类框架

在分析了数据集的构建之后,在深度学习的基础上对图像进行分类,完成分类网络的搭建,这种方式对于分类精度具有较好效果[10]。利用GoogLeNet Inception-v3进行分类网络,得到如图2的网络结构。

GoogLeNet Inception-v3分类性能较好,是卷积神经网络模型中分类性能最好的一种模型之一,通过ImageNet数据库中上百万幅的图像合成,其数据抽象能力和特征提取能力较好[11]。在迁移学习技术的基础上,利用训练好的网络参数,在数据库中寻找更高的训练精度,迁移学习的目的是将场景中学到的知识应用到新的应用场景中,从而帮助新的应用场景完成学习任务[12]。利用迁移学习技术,让100多万幅的皮损图像在GoogLeNet Inception-v3网络中进行参数调整,从而获取更好的基于皮损分类的卷积神经网络模型。

通过对皮损图像进行分类实验,在训练网络中对数据集进行划分,其中训练集和验证集的图像有10万幅以上,测试集的图像有将近2 000幅,对所有的测试集图像进行验证,获取的实验结果更具有科学依据和说服价值。在训练卷积神经网络时,需要让训练的数据标签类别与目标类别保持一致,将皮损的图像划分为Ⅲ类或者9类,选择任意一种类别对卷积神经网络进行训练,利用细粒度的标签信息解决此类问题。通过分类树形结构图,完成推理类,让每一种推理类都可以获取对应的节点。对于输入图像而言,如果图像属于训练类别中任意一类,则需要获取该图像的推理概率;如果子类也属于推理类,可以使用迭代算法进行问题解决[13]。

2.3分类性能

为了充分发挥出细粒度标签的优势,得到一种CNN-PA的算法,将CNN-PA的分类结果与卷积神经网络的分类结果进行对比,根据对比结果,得到在不同的分类任务上,所获取的精度有较大差异。CNN-PA拥有较强的分类能力,该网络在很多的分类任务上都展示出了较强的准确率。为了证明CNN-PA的分类能力,在细粒度的分类任务中,区分角质形成的细胞癌与脂溢性角化病,然后将网络的分类性能与皮肤科医生进行比较,根据比较结果,针对每一项任务,有超过90%以上的医生,其分类敏感性和特异性均不如卷积神经网络的分类性能,说明卷积神经网络中的分类任务准确率已经大大超过了专业的皮肤科医生[14]。

皮肤科医生在临床诊断中,需要考虑到患者的皮损特征、年龄以及其他病理等各种信息;而当前所讲述的方法,只需要通过皮肤镜图像和临床图像即可获取患者的病历。在皮肤影像中,除了需要进行皮肤镜和临床图像之外,还需要进行共聚焦激光扫描、皮肤超声、皮肤成像、皮肤组织病理图像等,根据不同的成像方式,可以获取患者不同维度皮肤病变影像。对于一些模糊病变,临床医生通常會选择采用皮肤影像综合分析的方式获取更加准确的皮肤诊断。随着人工智能技术的不断发展,皮肤影像数据与患者的个人信息有了一个高度的结合,利用深度学习的方法,对多源、多维度进行融合,从而获取到了更加准确的自动分类结果,帮助临床医生进行更加准确的皮肤诊断,从而为患者提供更加优质的治疗[15]。

3皮肤影像分析模型设计

3.1提取面部区域

3.2模型建立

为了更加准确的进行事物描述,可以将事物进行分解,得到基于高斯概率的密度函数,简称为高斯模型。根据得到的面部数据像素进行肤色的数据筛选,根据数据得到对应的高斯模型,从而达到检测肤色区域的目的[16]。经过转换后的图像,每一个像素点都有一定的相似度,可以根据该像素点进行概率计算:

3.3策略分析

3.3.1分割

深度全卷积反卷积神经网络的原理,首先要提取特征,通过反卷积得到的特征图作为输入条件,进行反卷积后得到结果,以验证不同层之间所提取到的结果。如果想要查看“conv5”提取的内容,需要将一种“13×13”的特征图进行放大,然后进行反卷积,得到一张与初始图片相同的内容,从而实现图像分割,这种方式在皮肤的图像分割中受到的应用最多[17]。

全卷积神经网络作为最常用的一种分割网络,与卷积神经网络最大的区别就是将末层的模式进行了替换,使用反卷积层对卷积层进行采样后,得到一张与输入图像大小的图片,并对图像中所产生的像素进行了预测,且保留了原始图像所含有的信息,最后通过逐像素分类实现图像分割。

U-Net网络在细胞分割上具有显著效果,作为全卷积神经网络的延伸,整个网络结构呈“U型”;与全卷积神经网络相比,U-Net在采样阶段有较大的改动,上采样层的特征较多,且网络处于断续的状态,只有通过卷积和下采样才可以获取一幅完整的图像。在医学图像的分割上,仅次于深度全卷积反卷积神经网络。

3.3.2特征提取

VGG-16也属于一种卷积神经网络的结构,是在视觉几何组的开发下得到的一种网络结构。该结构运用超级像素,将像素级的图像划分成区域级的图像。图像是由颜色、亮度以及纹理构成的像素点,每一个区域的内部之间都具备了很强的整体性特征。该结构可以将超级像素与皮损的特征进行连接,通过卷积神经网络进行分类,获取皮肤特征的信息。

3.3.3分类

在卷积神经网络中,皮肤病分类是最常见的一个领域,常见的结构包含上述的VGG、AlexNet、ResNet;网络算法有VGG-VDD、ResNet等,算法以深度卷积神经网络为核心。在卷积神经网络中,图像作为最底层的输入形式,需要将信息传输到不同的层中,每一层通过数字滤波器获取数据特征。此方式可以获取图像的观测数据,如平移、缩放和旋转,根据图像的局部神经元,访问图像的特征。此外,皮肤影像数据分析要与患者的数据进行结合,然后对其进行逻辑推理,从而获取准确的结果。

4计算平台研究

面对数百万病例,需要海量的存储空间以及关系数据库与分布式存储相结合的方式,主要存储病例的病历信息和图片。在两者结合的数据基础上,集成数据分析决策平台,对图像处理、搜索、标注以及深度学习。在皮肤中常见的图形图像分析功能,主要对几何参数进行测量,如面积、直线、曲线以及周长等。在基于深度学习的GPU计算平台中,相比于传统的机器学习模型,在结构上和数量上更加复杂,需要更多层的计算。基于CPU的计算平台,时间消耗大;而基于GPU的计算平台,其计算能力比CPU快10倍。GPU计算平台针对复杂的深度学习模型更具有优势,搭建GPU计算平台,可以提高皮肤病预测模型的训练。

可以实现上述影像分析算法的主流计算框架有Theano、Torch、TensorFlow、Caffe以及CNTK等5种方式。其中,Theano作为深度学习开源的鼻祖,在学术界和工业界都具有较强的影响力;出于性能,使用Torch作为开发语言,可以在音频、图像以及视频方面起到较强的作用;TensorFlow作为一种深度学习工具,以“C++”为开发语言,是推动深度学习如此繁荣的一个重要助力。以上作为深度学习框架,在皮肤影像上基本可以满足其使用,但是随着数据量的不断增加,最好使用分布式深度学习框架进行数据皮肤影像分析,对于分布式开源深度学习框架,可以使用模型并行化和数据并行化两种思路进行深入研究。在分布式深度学习方面,最重要的一个特征就是数据随时更新和使用。因此在未来的发展中,还是以实时在线、模型可更新算法为主,实现皮肤影像数据的在线获取,以帮助皮肤科医生进行准确诊断和分析。

5结语

基于大数据的皮肤影像分析模型,在不同的分析策略之下,构建了分布式存储系统,实现了皮肤影像数据的在线存储以及关系型数据库与分布式数据库的有效融合,以T级为存储单位,让上百万的病例可以检索更加方便快捷,更有利于进行图像的处理和标注。借助计算平台进行分布式在线深度学习,实现数据的快速存储以及计算,通过与多终端业务的系统结合,支持科研人员以及医务人员开展相应业务,实现模型训练、验证、上线的一个闭环业务流程。深度学习作为一种数据驱动技术,在同一分类网络下可以为其提供不同种类的训练样本,从而实现不同分类的任务操作。为临床医生提供更加准确和充足的训练图像数据,深度学习与皮肤病领域的结合,对临床的诊断产生了十分深远的影响。

【参考文献】

[1]马维民.基于大数据的皮肤影像分析策略[J].中国医学文摘(皮肤科学),2018,35(2):238-241.

[2]王詩琪,刘洁.深度学习辅助皮肤影像自动分类的研究进展[J].中华皮肤科杂志,2020,53(12):1 037-1 040.

[3]周航宁,谢凤英,姜志国,等.基于深度学习的皮肤影像分类[J].协和医学杂志,2018,9(1):15-18.

[4]何玉林,尹剑飞,黄哲学.基于统计感知的大数据处理与分析课程设计研究[J].现代计算机,2021(17):158-161.

[5]刘栋,王黎峰,张怀锋.基于大数据的统计分析模型设计[J].软件导刊,2016,15(7):28-29.

[6]赵丹.基于大数据分析的运动损伤估计模型设计[J].现代电子技术,2017,40(17):101-104.

[7]田方.低空摄影测量遥感影像特征点提取算法研究[J].粘接,2020,44(10):82-86.

[8]罗琪.以深度学习方法为载体的医学影像实时变化检测算法分析[J].粘接,2020,44(12):132-135.

[9]高西.深度学习技术在皮肤影像自动分类中的应用[J].粘接,2021,48(11):98-101.

[10]杨聚加,段然,吴亚光,等.数据分类算法智慧诊疗模型在皮肤痤疮诊断中的研究与应用[J].重庆医学,2022,51(3):507-511.

[11]李承旭.基于皮肤影像的皮肤病辅助决策系统:调查、创研与应用[D].北京:北京协和医学院,2021.

[12]王诗琪,刘洁.深度学习辅助皮肤影像自动分类的研究进展[J].中华皮肤科杂志,2020,53(12):1 037-1 040.

[13]巴伟.基于深度学习算法的黑素细胞肿瘤病理图像鉴别诊断研究[D].北京:中国人民解放军医学院,2019.

[14]刘念,陈宏翔.人工智能在皮肤科领域的应用与发展[J].中华皮肤科杂志,2019(1):63-66.

[15]谢俊祥,张琳.人工智能在皮肤病诊断中的应用[J].中国医疗器械信息,2018,24(17):26-28.

[16]马维民.基于大数据的皮肤影像分析策略[J].皮肤科学通报,2018,35(2):238-241.

[17]常江.互联网平台在皮肤影像生态中的价值[J].皮肤科学通报,2018,35(2):242-246.

猜你喜欢

模型大数据设计
自制空间站模型
BUBA台灯设计
模型小览(二)
有种设计叫而专
圆周运动与解题模型
基于大数据背景下的智慧城市建设研究
离散型随机变量分布列的两法则和三模型
匠心独运的场地设计画上完美句点
设计之味