APP下载

基于多种染色病理图像的非炎性主动脉中膜变性计算机辅助诊断方法

2022-07-30孙中杰梁智勇连国亮龚珊珊季君予秦曾昌

协和医学杂志 2022年4期
关键词:主动脉染色病理

汪 昊,孙中杰,陈 东,万 涛,梁智勇,连国亮,董 方,龚珊珊,季君予,秦曾昌

1中国医学科学院北京协和医院病理科,北京 100730 2首都医科大学附属北京安贞医院病理科,北京 100029 北京航空航天大学 3生物与医学工程学院 北京航空航天大学生物医学工程高精尖创新中心 4自动化科学与电器工程学院,北京 100191

胸主动脉瘤及夹层(thoracic aortic aneurysm and thoracic aortic dissection,TAA/TAD)是最复杂、最危重的心血管疾病之一[1],此类疾病的临床表现特异性差,常被误诊为心肌梗死而错失抢救时间,明确病因、及时诊断以及手术干预是提高TAA/TAD患者生存率的关键。结合临床特点及术后标本病理学表现,有利于分析此类疾病的发生机制及影响因素。因此,准确的病理诊断结果对TAA/TAD的病因学研究具有重要意义。

中膜变性(medial degeneration,MD)是TAA/TAD的主要病理改变。心血管病理学会及欧洲心血管病理协会制订的共识(2016版)[2]对于非炎性主动脉病变提出了统一诊断方案,并根据MD分类及病变程度明确了分级标准。在上述诊断标准中,MD包括层内型黏液样细胞外基质聚集(intralamellar mucoid extracellular matrix accumulation,MEMA-I)、穿透型黏液样细胞外基质聚集(translamellar mucoid extra-cellular matrix accumulation,MEMA-T)、弹力纤维断裂和/或缺失(elastic fiber fragmentation and/or loss,EFFL)、平滑肌细胞核缺失(smooth muscle cell nuclei loss,SMCNL)、层状中膜崩解(laminar medial collapse,LMC)5个量化指标。常规诊断方法需病理医师于显微镜下观察HE染色切片,并结合特殊染色及免疫组化染色的病灶性质进行辅助评估(图1),将5个量化指标进行病变程度判定并将所有病变区域综合分析,才可得出最终诊断结果。该诊断方法不仅工作量大、耗时费力,且受主观因素影响,诊断准确率低且结果一致性差。计算机辅助诊断(computer-aided diagnosis,CAD)可为MD的评估提供新的诊断途径。由于LMC继发于SMCNL,MD的诊断可进行简化,仅针对非炎性主动脉组织中的MEMA-I、MEMA-T、EFFL及SMCNL进行分类量化。本团队在既往研究中,基于CAD技术已实现了非炎性主动脉MD HE染色病理图像4分类[3],经反复模型调试与测试,模型整体分类准确率可达98.78%[4]。但该诊断方法在应用时仍存在诸多挑战,如仅依靠单一染色图像对病变范围及病变间的相互关系不易把握,进而造成综合诊断时辅助分级难度大,不利于最终分级软件的运行与研究等。本研究对既往模型进行优化与改进,以解决前期研究中存在的问题。

图1 同一病变部位5种不同染色的中膜变性病理图像(×20)

1 材料与方法

1.1 一般材料与分组

1.1.1 材料

回顾性收集2018年7—12月首都医科大学附属北京安贞医院TAA/TAD患者的非炎性主动脉手术标本病理切片。纳入标准:(1)按照国际共识中的标准[2],患者均诊断为TAA/TAD非炎性主动脉病变且均行手术治疗;(2)每组切片均包括HE染色、特殊染色(弹力纤维/VanGieson、Masson、阿辛蓝/过碘酸雪夫)及平滑肌肌动蛋白染色5种染色的病理图像。排除标准:切片质量不合格。

1.1.2 分组

采用3D Histech Pannoramic Scan数字玻片扫描系统以400倍率将病理切片扫描为全视野数字图像(whole slide image,WSI)[5]。由2名病理科医师依据共识[2],采用CaseViewer软件对WSI中的病变进行标注(标注不一致时需经另1名高级职称医师进行复核)。将标注后的WSI图像按6∶1的比例随机分为训练集和测试集,分别用于模型训练与评价。为避免分类偏差,随机分组时应保证训练集和测试集包含相同的病变类型分布,且2个数据集不可同时包含来自同一患者的图像。

本研究已通过首都医科大学附属北京安贞医院伦理审查委员会审批(审批号:2018088X),并豁免患者知情同意。

1.2 方法

1.2.1 数据增强

在临床数据较为有限的情况下,所标注的图像数据类别常出现不平衡现象。此时,可通过数据增强[4]的方式扩大样本数据。本研究通过图像旋转的方法进行数据增强,即将标注后的WSI随机裁剪后分别旋转60°、90°、180°和270°,可产生5倍的图像样本,避免因数据过少导致模型过拟合现象。

1.2.2 图像预处理

1.2.2.1 颜色归一化

病理切片在取材、制片、图像扫描等过程中,由于个体组织样本的差异性、医师经验和扫描仪参数设定的不同,会造成WSI图像显色存在差异。采用基于染色分离的归一化法[6]可减少图像的颜色差异,并保留图像中的关键信息,尽可能保存细胞内的结构信息,提升模型的分类性能(图2)。

图2 颜色归一化处理前后的病理图像比较A.处理前;B.处理后

1.2.2.2 图像分级配准

由于制片的差异及人工标注的局限性,前期处理所获取的同一组织相同部位病变的相邻切面病理图像不可能完全相同,通过简单叠加的方式并不能得到所需图像,因此需通过可变形配准方法将多张不同染色的图像进行配准。此外,染色病理图像的尺寸约为9万×18万像素(最高分辨率水平),以现有计算机的性能,使用现有的配准算法几乎无法直接完成图像配准任务。因此,本研究提出一种分级配准方法,对低、高分辨率的病理图像依次进行配准。

在低分辨率水平下,采用基于图像特征的粗轮廓配准算法,提取基于尺度不变特征变换(scale invari-ant feature transform,SIFT)的图像特征[7]进行图像轮廓配准,可保证图像内部细节不会有较大失真。基于SIFT的算法完成轮廓配准后得到的病灶切面图像可能存在错位现象,无法满足病理图像信息融合的要求。基于灰度强度的配准算法具有较好的鲁棒性,在处理多模态医学图像的配准中应用广泛。在得到高分辨率水平下的病灶切面图像后,使用基于灰度强度的配准算法,可实现病灶切面图像内部位置配准。配准过程中,选取的变换模型为仿射变换,配准评价指标为互信息,迭代器为 Adam。

1.2.3 模型设计

本研究基于SE-EmbraceNet网络结构,首次构建MD多分类模型。该模型可分为3个部分:输入层、融合层和分类层。输入层用于提取不同染色病理图像的特征。融合层中,使用SENet[8]进行特征重标定,并获取不同染色病理图像间的融合权重,实现特征融合。分类层中,引入Dropout机制[9]避免模型对某种染色图像的过度学习,提高模型的泛化能力,并将最终分类结果通过Softmax模型输出。

1.2.3.1 输入层设计

SE-EmbraceNet为一个包含5个输入通道的轻量级分类模型,每个通道结构相同,均由卷积层、池化层及全连接层组成。每个通道分别输入一种染色的主动脉病理图像。本研究以x(k)表示第k个输入通道的输入向量,其中k∈{1,2,3,4,5}。第k个输入通道i层的输出向量可表示为公式(1):

yi(k)=wi(k)·x(k)+bi(k)

(1)

其中wi(k)和bi(k)分别为权重向量和偏置。yi(k)经过激活函数fa(线性修正单元ReLU或Sigmoid),可得到k个输入通道的输出向量,见公式(2):

zi(k)=fa(yi(k))

(2)

其中zk=[z1(k),z2(k),…,z512(k)]T,所有输出向量(z1,z2,z3,z4,z5)均为512维的向量。

融合层特征图像的输入尺寸为5×1×512。通过SENet模块可进行图像特征融合,具体算法设计参照合作单位前期研究成果[10]。在模型训练过程中,SENet模型引入了注意力机制,可自动对染色通道进行判定,提升有诊断价值染色通道的权重,并降低对病理诊断意义不大的染色通道的权重,即“特征重标定”策略。具体过程包括三个步骤。

步骤一,为获取某种染色病理图像的全局特征,采用全局平均池化层进行特征图处理,计算方法见公式(3):

(3)

其中,h和w分别为输入通道池化层中特征图z的长和宽,u为池化层的输出特征图。

步骤二,基于通道注意力机制,获取特征通道间的依赖关系,方法见公式(4):

s=σ[w2fb(w1u)]

(4)

其中s为融合权重,σ表示激活函数Sigmoid,w1、w2分别为连接层的参数,fb表示激活函数ReLU。共包含2个全连接层的结构,第1个全连接层起到降维的作用,第2个全连接层用于将特征图恢复至原始维度。

这年学期毕业典礼上,我赢得了一个意外的奖章。校长图什曼在颁奖时说:“这枚奖章将颁给对学校做出了特殊服务和重要贡献的学生。该奖本学期的获得者具有善良的本性和友情的力量、勇气的力量,并以此激励了大部分同学,他的名字叫奥古斯特!”

步骤三,将步骤二获取的病理图像融合权重通过加权至特征图,实现对各染色通道原始特征的重新标定,从而利用各类染色图像的特征进行更高效训练。计算过程见公式(5):

t=fscale(Z,S)

(5)

其中,fscale表示基于通道的乘法操作,t为完成特征重组的特征图,最终所输出的特征图尺寸为 5×1×512。

1.2.3.3 分类层设计

为避免模型过拟合,通过Dropout机制调控分类层输入,以有效避免训练阶段对特定染色图像的过度学习。全连接层紧跟Dropout层,神经元总数为1×1×512。最后通过Softmax激活函数获取4种MD病变类型(SMCNL、EFFL、MEMA-I以及MEMA-T)分类结果。其中SMCNL为主动脉中膜多个层状单位内的平滑肌细胞核不能清晰识别;EFFL为主动脉中膜广泛的穿层状弹力纤维断裂和/或缺失以及层状弹力纤维间隔增大;MEMA-I是指主动脉中膜黏液样细胞外基质增加,但层状结构无显著改变;MEMA-T是指主动脉中膜黏液样细胞外基质增加且层状结构存在不同程度改变。

1.3 模型运算环境

采用基于 PyTorch 的深度学习框架进行模型搭建,采用高性能计算平台(华为 G5500 系列服务器)和 NVIDIA V100 GPU 卡进行模型训练,采用Matlab R2018b 平台和 Python 3.7对图像进行预处理。

1.4 评价指标

虽然MD包括4种病变,但本研究在分类结果评价时采用二分类评价方法,即在识别某一种病变类型时,其余3种病变均被归为非同组类别。采用准确率、灵敏度、精确率、F1值(灵敏度和精确率的调和均值)对分类结果的性能进行量化,计算公式为:

(6)

(7)

(8)

(9)

其中,TP(true positive)为真阳性,FP(false positive)为假阳性,TN(true negative)为真阴性,FN(false negative)为假阴性,PRE(precision)为精确率,SEN(sensitivity)为灵敏度。

1.5 统计学处理

采用SPSS 23.0软件进行统计学分析,采用Microsoft Excel 2016软件绘制图像分类结果的柱状图。准确率、灵敏度、精确率、F1值为计数资料,以百分数表示。

2 结果

2.1 数据集

共入选符合纳入和排除标准的TAA/TAD患者非炎性病变主动脉手术标本病理切片530张(手术标本106份)。总提取5265组图像(每组包含同一病变部位5种染色病理图像),其中SMCNL 1153组、EFFL 2348组、MEMA-I 1559组、MEMA-T 205组。训练集包括4513组图像,其中SMCNL 987组、EFFL 2013组、MEMA-I 1337组、MEMA-T 176组;测试集包括752组图像,其中SMCNL 166组、EFFL 335组、MEMA-I 222组、MEMA-T 29组。

2.2 模型分类结果

模型对测试集4种病变图像的识别、分类能力良好,绝大部分图像可被正确分类,仅个别图像分类错误(图3)。其中2组SMCNL图像被错分为EFFL,2组被错分为MEMA-I;4组EFFL图像被错分为MEMA-I,1组被错分为MEMA-T,提示当存在MEMA-I病变时,其图像特征会对模型识别EFFL病变有一定干扰。

图3 模型对测试集主动脉中膜变性病理图像的四分类结果SMCNL:平滑肌细胞核缺失;EFFL:弹力纤维断裂和/或缺失;MEMA-I:层内型黏液细胞样细胞外基质聚集;MEMA-T:穿透型黏液样细胞外基质聚集

此外,分别有3、3、5组MEMA-I图像被错分为SMCNL、EFFL、MEMA-T;6组MEMA-T图像被错分为MEMA-I,提示相较于MEMA-I,模型对MEMA-T病变的识别具有较高特异性,被错分为SMCNL及EFFL的概率均为0。

2.3 模型评价

除对MEMA-T分类的灵敏度、精确率和F1值均为79.31%外(由于测试数据集中包含的MEMA-T样本较少,数据分类不平衡),SE-EmbraceNet模型识别MD 4种病变类型的准确率、灵敏度、精确率、F1值均高于90%,整体准确率为96.54%(726/752),提示模型的整体分类效果良好。其中对EFFL的识别能力最强,准确率、灵敏度、精确率和F1值均≥98.51%,其次为 SMCNL,各指标均≥97.59%,亦具有较好的分类能力。相较SMCNL和EFFL,模型对MEMA-I、MEMA-T的识别能力略差(表1)。

表1 模型在测试集中的评价结果(%)

3 讨论

MD病变类型的识别与评估可为TAA/TAD的诊断和早期干预提供重要参考依据。鉴于目前通过人工显微镜下阅片完成MD病变分类及TAA/TAD诊断的方式存在主观性强、工作量大等局限性,本研究团队在既往研究成果的基础上,提出了基于SE-EmbraceNet网络结构的MD病变多分类模型,结果显示该模型对4种病变类型的分类能力良好(多数评价指标高于90%),其中对EFFL的识别能力最强(各评价指标均≥98.51%),其次为 SMCNL(各评价指标均≥97.59%)。

WSI图像蕴含丰富的表型信息,是监测疾病进展、判断病灶严重程度、研究疾病潜在机制的重要手段。人工智能已成为解析病理图像的先进技术,广泛应用于乳腺癌、肺癌、肝癌、宫颈癌等恶性肿瘤的分类识别与鉴别诊断[11-14]。目前,CAD在病理领域中的研究成果多集中于肿瘤区域,在非肿瘤性病变中的应用较少。关于TAA/TAD,有限的相关研究主要基于影像图像分割或分类,聚焦于根据几何形态对主动脉肿瘤进行分类,以评估其危险程度,并对主动脉夹层进行分类与诊断[15]。探索主动脉非炎性病理改变的CAD模型有助于评估其在间质性病变分析中的可行性,为间质性病变相关研究提供思路。

本研究团队在前期研究中已证实,人工智能算法在保持高准确率的前提下,对主动脉MD病变的识别具有人工阅片无法比拟的速度优势,可节约病理科医生人工初判的时间。目前,本团队已在单一染色非炎性主动脉MD病理图像病变识别相关研究中得到了较为可观的分类结果,课题组先后应用ResNet模型及GoolgeNet模型对单一染色病理图像判读,整体准确率分别为96.32%和98.78%[3-4]。尤其GoolgeNet单一染色模型的各项指标均较理想,但单一染色模型在软件转化及数据整合时的适用性不高。因此,若通过软件独立完成最终的主动脉MD诊断分级,多种染色病理图像分类模型的研究势在必行。

图像信息融合是进行多种染色病理图像分类面临的最大挑战。基于上述研究成果,课题组首次提出了SE-EmbraceNet模型,其为轻量级神经网络模型,通过搭载SENet模块,实现了多种染色病理图像信息融合。SENet自注意力机制可对融合层各染色病理图像的融合权重进行量化,然后将每个通道通过乘法运算加权至各染色病理图像的特征上,最终完成多种染色病理图像信息融合。在分类层中,引入的Dropout机制可避免模型对某种染色图像的过度学习,提高了模型的泛化能力。多分类SE-EmbraceNet模型结合图像分级配准的方法可有效解决多种染色病理图像信息融合、对同一病变区域定位困难、综合诊断时辅助分级难度大等问题,使得进行多种染色病理图像分类成为可能,可在60 min内完成模型训练,并获得稳定结果。本研究结果显示,该模型对测试集MD病变图像进行多分类的整体准确率为96.54%,证明SE-EmbraceNet模型的分类效果达到了既往单一染色病理图像分类水平,并优于ResNet分类模型[3-4]。此外,对本研究构建模型采用的病理图像去除标注等信息后,经本院初级医师诊断,其准确率仅为91%,提示SE-EmbraceNet模型有望提升初级医师的诊断准确率。

本研究针对非炎性TAA/TAD的间质病变进行了人工智能识别,但由于其他疾病亦可存在相似的病变,模型仅考虑了主动脉MD病理图像,并未对其他间质性疾病的多种染色病理图像的分类能力进行泛化能力测试。后续可纳入多种疾病,测试模型针对不同程度MEMA、EFFL、SMCNL等病变的识别性能。

综上,本研究提出的SE-EmbraceNet模型通过搭载SENet可实现TAA/TAD MD病变多种染色病理图像分类,准确率高,耗时短,具有较好的泛化能力。将来有望将其装载至便携设备中,辅助医师完成MD病变识别,提高该病的诊断效率和诊断能力。

作者贡献:汪昊、孙中杰负责模型构建、测试及论文撰写;董方、陈东负责切片审阅及论文设计、修订;梁志勇、万涛负责论文审校;连国亮、龚珊珊负责资料收集与数据整理;季君予、秦曾昌负责技术支持。

利益冲突:所有作者均声明不存在利益冲突

猜你喜欢

主动脉染色病理
无限路及其笛卡尔积、直积的孪生α-距离边染色
分析乳腺癌病理诊断对临床诊治的价值
小细胞肺癌病理特征及免疫研究进展
胸主动脉阻断联合主动脉旁路循环技术建立大鼠脊髓缺血损伤模型
术前MRI检查对宫颈癌病理分期及宫旁浸润评估的诊断价值
为何要病理会诊和免疫组织化学检测
主动脉也会长溃疡
不得不防的“健康杀手” ——主动脉夹层
△(G)=8且不含有三角形,4—圈的平面图的完备染色
两类图的b—染色数和研究