APP下载

卷积神经网络在辅助胸部数字X线图像质量控制工作的应用价值

2019-09-10贾晓茜张向利赵志富李延寿董阿梅郭建新

关键词:卷积准确率神经网络

贾晓茜,张向利,刘 哲,曾 强,赵志富,李延寿,黄 鸿,董阿梅,杨 健,郭建新

(1.西安交通大学第一附属医院医学影像科,陕西西安 710061;2. 西安盈谷科技有限公司,陕西西安 710075)

胸部数字X线(digital radiology, DR)是临床常用的检查方法。但是,因机器和操作者等因素的差异,临床实际工作中所获取的图像质量参差不齐,质量较差的图像可能导致患者反复重照而增加辐射剂量风险或者漏诊误诊[1]。因此,DR图像的质量控制(quality control, QC)对临床精确诊断及患者安全具有重要意义,对整个影像过程的质量和规范进行监督是必要的[2]。但是DR图像的人工评价主观性较高,其定性评价结果差异较大,因此具有一定的局限性。近几年,人工智能(artificial intelligence, AI)的迅速发展推进了临床各项技术的应用,例如肺结节检测、骨龄评估等[3-5]。但是,我们发现作为AI的重要算法——卷积神经网络算法对DR图像质量的评价研究较少。本文旨在评价基于卷积神经网络在胸部DR图像QC工作中的应用价值。

1 材料与方法

1.1 图像资料图像(n=2 128)来源于多种不同的采集设备,包括沈阳东软医疗系统有限公司、GE Healthcare、ANGELL、Agfa、Carestream Health、GE Healthcare、SIEMENS等公司生产的设备。排除未成年(<18岁)的(n=350)和非常规体位(侧位、前后位等)拍摄的图像(n=160),剩余有效影像图像为1 618张。

1.2 人工标记

1.2.1图像获取标准[6]①Dicom重要参数完整:姓名、性别、年龄、检查号和位置信息完整;②图像清晰:两肺清晰可辨,无体外伪影;心脏、纵膈、膈肌及气管分叉边界显示清楚;两侧肋骨外缘、两侧肋膈角、肺尖上软组织可见;纵膈后方1~4胸椎可见;心影后肺及纹理大致可见、肋骨隐约可见、椎体隐约可见;③图像位置合理美观:两肺位置正中对称;肩胛骨投影于肺野之外;胸椎位于正中;双侧胸锁关节对称显示,位置高且趋于水平;肩部软组织上空曝区3~5 cm。

1.2.2标签区域 两肺区标签(肺区)、两肺尖标签(肺尖);位置标签R/L并注明类别;异物标签(如有)。Dicom重要参数标签见图1。

1.2.3图像标记级别 1:优(完全满足1.2.1中图像获取标准①、②、③);2:良(位置不完美:完全满足①、②而不完全满足③);3:可(图像质量稍差:完全满足图像获取标准①而不完全满足②、③,存在可容忍异物,经过处理后可诊断);4:差(不满足①或图像质量太差不能诊断或有不可容忍异物在肺区)。

以上工作由5名从事影像工作10年以上的影像学技师完成,在图像分级评价过程中,对有异议的图像进行协商确定。

图1 机器学习的图像标记区域要求

Fig.1 Image marking area requirements for machine learning

(红色:肺野;橙色:肺尖;紫色:X线照片标记;绿色:可容忍的异物;蓝色:不可容忍的异物)。

1.3 卷积神经网络及测试采用基于卷积神经网络中的InceptionV3分类网络进行QC,将数据分成训练集和测试集,AI评价DR图像质量的流程如图2所示。InceptionV3分类网络结构如图3。首先将图像尺寸统一缩放到139×139像素,作为InceptionV3分类网络的输入,在保留图像绝大多数信息的情况下,提高了算法的速度(通过实验,在显存为12G的GPU上,直接使用原图作为输入,单张图像预测时间为0.112~0.138 s,原图resize到139×139像素,作为网络输入,单张图像预测时间为0.029~0.036 s);其次,InceptionV3分类网络利用输入图像及其标记,通过多层卷积神经网络不断迭代和自主更新网络权重,对图像特征进行学习和提取;最后通过softmax函数对最终特征进行分类预测,得出图像属于对应优良可差4个类别的概率,最终确定QC结果,得到图像质量等级。

1.4 计算与统计学分析测试结果采用二分类和四分类2种方式进行计算,按照图像是否满足诊断进行二分类计算(图像级别为1、2、3级代表合格,图像级别为4级代表不合格);按照图像级别进行四分类计算。最终通过混淆矩阵(表1)计算敏感度、特异度、阳性预测值(positive predicted value, PPV)、阴性预测值(negative predicted value, NPV)、总准确率,计算公式如下:

图2 胸片DR图像QC流程图

Fig.2 Flow chart of image quality control for chest radiography DR

图3 InceptionV3结构图[5]

Fig.3 Inception V3 structure diagram

表1 混淆矩阵表述结果示例

Tab.1 Examples of confusion matrix representations

图片数量预测结果为1类预测结果为2类预测结果为3类预测结果为4类标记1类x11x12x13x13标记2类x21x22x23x24标记3类x31x32x33x34标记4类x41x42x43x44

率的卡方检验用于二分类和四分类准确率的比较,P<0.05认为差异有统计学意义。以上过程在SPSS 20.0版本和keras2.1.2版本上进行,代码均在python2.7的环境下开发的,并在GPU型号为GTX 1080Ti上运行,该AI智能化质控系统在Linux/Windows/Mac等操作系统上均可以使用。

2 结 果

本研究共使用1 618张胸部DR图像,其中用于训练集的特征图像1 294张数据,测试集324张数据。二分类结果:敏感度为73.53%(25/34),特异度为97.93%(284/290),PPV为80.65%(25/31),NPV为96.93%(284/293),总准确率95.37%(309/324)(表2)。四分类“优、良、可、差”的测试结果见表3,总准确率为75.93%(246/324)。二分类和四分类结果比较见表4:二分类的总准确率明显高于四分类(P<0.01)。

表2 二分类测试结果混淆矩阵

Tab.2 Confusion matrix for test result of two classifications (n)

标记类别预测结果为1、2、3类预测结果为4类标记1、2、3类2846标记4类925

表3 四分类测试结果混淆矩阵

Tab.3 Confusion matrix for test result of four classifications

标记类别预测结果为1类预测结果为2类预测结果为3类预测结果为4类标记1类1141220标记2类346051标记3类510461标记4类03526

3 讨 论

卷积神经网络作为AI最主要的计算模式,融合了多学科和产业的技术,对疾病诊断研究已经超过30年,且跨越不同系统多种疾病[7-8]。在辅助诊断的同时大幅度降低了医务工作者的工作强度,使工作更高效。然而,图像质量的好坏直接影响到诊断的准确性。此外,高质量的影像质量是卷积神经网络学习和计算最重要的基础[9]。影像质量的评价最常用最直接的方法是影像医师的主观评价即视觉评价,这种评价方法费时费力,且容易带有主观偏见,不一定适合临床需求。AI辅助评价质量具有客观、便捷的优势,已应用在实验筛选、检测相片问题、评价胎儿超声图像等方面[10-12]。AI在影像质量评价上的应用,来自于ZHANG等[13]和代广喆[14]的研究成果,2项研究结果均证实了可以利用AI结合扫描参数测量图像质量。

表4 测试结果采用两种分类方法的评价指标的比较

Tab.4 Comparison of the two classification methods for test results

评价指标二分类四分类优良可差χ2P敏感度(%)73.5389.0660.0074.1976.47--特异度(%)97.9380.1088.8495.4299.31--PPV(%)80.6574.5170.5979.3192.86--NPV(%)96.5391.8183.2693.9997.30--总准确率(%)95.3775.93总错判率(%)4.6324.0749.83<0.01

本研究将卷积神经网络的InceptionV3分类网络用于胸部DR图像的质量评估,采用1 294张图像进行卷积神经网络及324张图像验证其准确性,并用了2种分类方法计算结果。二分类计算方法总准确率95.37%,四分类进行计算总准确率75.93%,二分类总准确率高于四分类。这可能与影响DR图像质量的多种因素有关[15]。据笔者所知,目前尚无基于卷积神经网络在QC管理工作中的应用,较类似的研究是前文已有提到的MR图像质量的研究[13],该研究将信噪比作为一个观察指标建立图像质量评估模型,得到较为满意的结果。目前,影像科的QC管理工作,最常用的方法仍然是以人为调查、监督和报告等传统方式进行[16-18]。随着管理工具在医院管理中的引入,医生尝试利用PDCA进行QC管理[19-21],取得了满意的效果。QC是管理者采用回顾性分析数据的方法测试影像质量[22-23],发现低于最低标准的数据,从而通过分析原因采取改正措施,确保所关注数据满足可接受的最低要求,达到持续提升质量的终极目标。本研究所采用的二分类计算方法,分类标准即按照QC管理要求:满足诊断,通过计算测试本次卷积神经网络的准确率,得出相当满意的结果,能够满足QC管理工作的要求。因此,本次测试较满意完成的是质量管理的基本工作:快速高效筛选出不合格影像,计算重做率,适合于放射科影像管理的基础工作。但是,质量管理工作包括QC、质量保证和质量持续改进这样一个从低级到高级的过程,管理者需要提升影像图像质量,则需要四分类这种更加细致的计算方法实施。

本次测试存在以下局限性:首先,涉及到的图像质量特征标记为主观视觉评价,无客观参数纳入,例如灰度、纹理、锐度等等,今后还需结合参数等客观数据进一步探索其在QC工作中的应用价值;其次,本次测试用了两种计算方法并证实可以满足QC的管理工作,而更高级别的测试准确率(例如质量持续改进、AI诊断等)并无具体量化的要求,因此并不能否定四分类计算结果的价值,仍需进一步探讨。

总而言之,利用卷积神经网络来实施QC管理工作被证实是可靠的,可大大减少人为调查分析所占用的时间,且避免了因设备或人为因素造成的影响,而且有可能在影像诊断辅助工作中发挥更大的优势。但因卷积神经网络用于影像管理工作还仅处于学步阶段,要与提升质量、考核及诊断匹配,还需更精细的分级标准和特征标记。

猜你喜欢

卷积准确率神经网络
基于3D-Winograd的快速卷积算法设计及FPGA实现
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
卷积神经网络的分析与设计
神经网络抑制无线通信干扰探究
从滤波器理解卷积
基于神经网络的中小学生情感分析
高速公路车牌识别标识站准确率验证法
基于傅里叶域卷积表示的目标跟踪算法