人工智能在结直肠癌数字化病理图像分析中的应用

2022-07-30李晓燕陈灏源张敬东

协和医学杂志 2022年4期

李晓燕，李晨，陈灏源，张勇，张敬东

中国医科大学肿瘤医院/辽宁省肿瘤医院 1病理科 3消化内科，沈阳 110042 2东北大学医学与生物信息工程学院，沈阳 110819

随着肿瘤“精准医疗”及“免疫治疗”时代的到来，临床对“金标准”病理诊断提出了更高要求。个性化肿瘤治疗需进行准确的生物标志物评估，如何更快、更准确及更全面地作出病理诊断面临巨大挑战，这也成为病理学科发展的新契机。目前，计算机人工智能技术在医学领域的应用越来越广泛，极大推动了“精准医疗”的发展。数字化病理图像的出现为人工智能与病理学搭建了桥梁，基于人工智能对数字病理图像的数据挖掘及深度学习，病理诊断逐渐从定性分析发展为定量分析，促进了数字化病理及病理组学的发展。

结直肠癌是一种常见的消化道恶性肿瘤。2018年全球癌症统计数据显示，结直肠癌的发病率和死亡率分别居第3位(10.2%)和第2位(9.2%)[1]，我国结直肠癌的发病率和死亡率在恶性肿瘤中分别位居第3位、第5位[2],且发病率呈明显上升趋势。本文以结直肠癌为切入点，从筛查诊断、肿瘤分类/分级、指导治疗及预后等方面阐述人工智能在数字化病理图像分析中的应用现状和潜在价值，以期为临床诊疗提供参考。

1 数字病理学及人工智能

近年来，随着癌症发病率递增及病理科工作量的增加，传统病理诊断模式在“精准医疗”时代其主观性及不可准确量化的弊端日渐显露。全视野数字图像(whole slide image,WSI)可应用计算机及全切片数字扫描技术将病理组织切片转换为高分辨率的数字图像[3]。WSI的出现促进了数字病理学的发展，破解了传统病理学在切片储存、疾病诊断及远程会诊中的难题，一定程度解决了医疗资源地域分布不均问题，极大提高了病理诊断的工作效率及准确性。随着第一个用于数字病理学的全玻片成像系统的获批，标志着病理学数字图像分析时代的到来[4]。现阶段，数字病理学越来越受到关注，原因之一是精准医疗的发展需要准确的生物标志物评估，这增加了对常规组织病理学评估中高通量精确诊断的需求。

1956年，人工智能概念首次被提出,其是一门包括计算机科学、数学等多种学科在内的新的技术科学，涵盖用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统[5]。机器学习是人工智能的一个子领域，其应用统计方法以优化特定任务模型，可从肿瘤病理图像中提取与患者预后相关的信息，构建预测模型。深度学习是机器学习的一种方法，应用深度人工神经网络学习图像数据的深层次规律，可增强图像的分析能力。人工智能已广泛应用于医学影像图像及病理图像识别领域[6-7]，提高了病理的数字化程度，可用于肿瘤分类诊断、分级、预后预测和治疗。深度学习算法在病理图像中的应用，有望改变恶性肿瘤病理诊断和治疗分层方式，是人工智能在医学领域应用的又一里程碑事件。

2 深度学习在病理图像分析应用中的主要方法

深度学习是机器学习和人工智能研究的最新趋势，神经网络是一种学习算法，其构成了大多数深度学习方法的基础。卷积神经网络(convolutional neural network,CNN)[8]是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习模型中最重要的一种算法，已广泛应用于病理图像预处理、细胞核与核分裂象识别及量化、肿瘤分类/分级等[9-13]。随着GoogleNet[14]及ResNet[15]等基于CNN网络的深度学习模型的不断提出，人工智能得到了空前发展。

2015年，Ronneberger等[16]提出应用U-Net模型解决医学图像中的病灶自动识别与分割问题,这是深度学习在医学影像分割方面的突破。U-Net由编码器、瓶颈模块和解码器组成，是一种应用于生物医学图像分割的全卷积网络(fully convolutional networks,FCN)。使用U-Net模型进行图像分割时常对训练图像结合一些传统数据增强和数据扩充算法，进而高效利用有限的标注数据以达到良好的分割效果。2017年，Shelhamer等[17]提出了FCN模型，由当代分类网络(AlexNet、GoogleNet等)改编而成，该模型不受图像输入大小的限制，可通过使用卷积层代替原有分割网络的全连接层，将语义级别的图像转换为像素级，为图像分割方法的发展奠定了基础。循环神经网络(recurrent neural network,RNN)是通过循环网络结构挖掘数据中的时序信息以及上下文语义信息的模型。RNN通过输入一个按照链式链接的序列数据，继而，通过网络内部的结构设计有效捕捉序列之间的关系特征,按照链式序列的顺序依次输入到网络中进行训练。2019年，Campanella等[18]利用RNN模型进行肿瘤阳性或阴性预测，该研究采用25%的WSI切片进行训练并获得了100%的灵敏度。此外，对抗生成网络(generative adversarial network，GAN)亦被应用于免疫组化染色图像的识别与分析[19]，为后续免疫组化的定量分析提供了基础。

3 人工智能在数字化病理图像分析中的主要工作流程

随着计算机辅助诊断(computer-aided diagnosis，CAD)和图像扫描技术的发展，WSI已逐渐取代传统病理切片，并被广泛应用于乳腺癌、前列腺癌、胃癌、肠癌及黑色素瘤等不同癌症的病理诊断领域[20-22]。结合WSI和CAD技术进行图像分割、分类和检测，是一种更有效、准确、客观的诊断方法，也是肿瘤精准诊疗的新工具[23-24]。

传统的病理诊断由病理医师通过光学显微镜不断调整视野，观察病理切片的不同组织区域并作出诊断。而基于WSI的CAD系统工作流程主要包括数据获取、图像呈现、图像预处理、特征提取、图像后处理、分类器设计及性能评价7个重要步骤(图1)[25]。每个步骤通过信息反馈与其他步骤相联系，使整个系统构成一个有机整体。

图1 计算机辅助诊断方法进行结直肠癌全视野数字图像分析的工作结构图[25]

4 基于人工智能的数字病理学在结直肠癌中的应用

4.1 病理诊断/分类及预后预测

计算机辅助诊断技术的发展，一定程度上减少了病理科医生的工作量，提高了诊断的质量与效率。传统的CAD通常使用经典的机器学习方法，由人工提取图像特征(如形状、颜色和纹理)，然后由分类器进行分类[25]。数字病理通过CNN模型可对图像中的直肠腺瘤进行分析，判断其良恶性。Kainz等[26]在肠道肿瘤HE染色图像中使用两种不同的CNN分类器对图像进行分割识别，良恶性诊断准确率可达95%～98%。Chen等[27]在结直肠癌活检病理图像中应用IL-MCAM框架，成功将肠道活检病理良恶性诊断准确率提高至99%。在消化系统肿瘤中，肿瘤出芽是肿瘤细胞高侵袭性的一种特征性形态表现,与肿瘤复发及转移密切相关[28-29]。Liu等[30]基于快速区域卷积神经网络(faster region-based convolutional neural network，FR-CNN)方法，建立直肠癌肿瘤出芽病理自动诊断平台，能够快速、准确地为病理医生提示图像中存在的肿瘤出芽结构及数量。

TNM分期系统被认为是确定各种癌症预后和最佳治疗方法的全球标准，并被临床医生和研究人员广泛使用。Gupta等[31]利用结肠癌的TNM分期及随机森林算法等机器学习方法预测患者5年内无病生存期的准确率可达84%。Reichling等[32]采用基于一项大型前瞻性研究获得的病理切片生成了人工智能软件，该软件用于研究Ⅲ期结直肠癌预后与 CD3、CD8 免疫浸润的关系，使用自动程序可帮助病理医生更好地确定Ⅲ期结直肠癌患者的预后。

4.2 预测结直肠癌分子亚型

随着分子病理学及个体化治疗的发展，结直肠癌的诊断和治疗已进入分子分型水平。Guinney等[33]使用随机森林算法及结直肠癌患者的基因学数据，初步形成了目前结直肠癌的共识分子亚型(consensus molecular subtypes,CMS)，包括CMS1(免疫型)、CMS2 (经典型)、CMS3 (代谢型)及CMS4(间质型)。Popovici等[34]应用深度卷积神经网络(deep convolutional neural network，D-CNN)模型成功从常规HE染色的组织学图像中识别出了结直肠癌的分子亚型，总体准确率达84%。廖俊等[35]利用CNN经典模型VGG、Inception V3和ResNet及其变体识别分子亚型，切片级别准确率为51.72%，其中经典型(CMS2)切片级别准确率达75.00%。CNN具有自动从输入数据中提取其学习特征的能力，HE图像中包含了足够的信息来预测结直肠癌的CMS分子亚型，因此在HE图像中应用CNN识别结直肠癌分子亚型具有巨大的潜力和应用价值[36]。

4.3 预测结直肠癌微卫星不稳定性

临床研究发现高度微卫星不稳定(microsatellite instability-high，MSI-H)/错配修复缺陷(mismatch repair deficiency，dMMR)性结直肠癌患者不能从单药氟尿嘧啶中获益，极少能从新辅助化疗中获益[37]。MSI/MMR伴随检测已成为结直肠癌临床病理诊断的常规项目，用于不同免疫治疗模式的敏感人群的筛选。Echle等[38]开发了一种深度学习系统，使用HE染色载玻片检测具有dMMR或MSI的结直肠癌标本，其特异度为67%，灵敏度达95%。Yamashita等[39]应用深度学习MSINet模型，在预测HE染色结直肠癌数字图像的MSI方面超过了经验丰富的病理科医生,该模型可作为一种自动筛查工具，在MSI/MMR检测方面对患者进行分流，从而节约了大量检测相关的劳动力和成本。

4.4 评估肿瘤免疫微环境

肿瘤免疫微环境是由肿瘤细胞、免疫细胞和非免疫基质细胞(包括成纤维细胞和内皮细胞)相互作用而形成的复杂环境。肿瘤免疫微环境在预测预后及评估免疫治疗疗效中的作用日益凸显[40]，有望成为新的免疫治疗敏感人群筛选方式。Kather等[41]通过迁移学习利用手动勾画得到的Ⅰ～Ⅳ 期结直肠癌组织HE图像提取具有临床注释的组织特征训练CNN，以识别结直肠癌病理学图像的不同组织类型，尤其是肿瘤基质类型，证实CNN能够根据病理组织图像评估肿瘤微环境并预测预后。Väyrynen等[42]应用有监督的机器学习对HE染色组织微阵列数字图像进行研究，在结直肠癌肿瘤上皮内区和间质区中对淋巴细胞、浆细胞、中性粒细胞和嗜酸性粒细胞进行了分类及计数，突出了机器学习评估HE染色切片中免疫微环境的潜力。基于人工智能的病理图像分析，将加快病理医生对复杂的肿瘤免疫微环境的评估，并增加预测的客观性及可重复性。

5 基于人工智能的组学大数据整合分析及潜在价值

人工智能时代的病理学研究逐渐呈现出向“组学”靠近的趋势，病理组学应运而生。病理组学旨在深度挖掘病理图像的信息，自动学习切片定量化病理特征，并与影像组学、基因组学、蛋白组学等建立一定的联系，形成多组学交互式诊断体系。

目前，应用人工智能、影像组学及基因组学数据进行整合分析，在实体肿瘤的分子病理诊断中取得了一定成果。Sun等[43]应用机器学习算法开发并独立验证了一种基于放射组学的肿瘤浸润CD8细胞生物标志物，使用从CT图像中提取的特征预测实体瘤对抗PD-1及PD-L1免疫治疗的反应。Wang 等[44]将癌症基因组图谱数据库中的基因表达谱数据和人工智能算法分析相结合，以改善对结直肠癌的诊断。Ferrari等[45]使用随机森林算法分析T2加权MR图像的纹理特征，以识别和预测局部晚期直肠癌患者新辅助放化疗后病理学完全缓解患者。通过人工智能深度挖掘组学数据中包含的信息，并将这些信息应用到临床中，将提高临床治疗疗效并可预测肿瘤复发及转移。人工智能和组学大数据等技术在医疗领域的应用，将大大推动精准医疗的发展。

6 人工智能在结直肠癌病理图像分析中的局限性

尽管人工智能在结直肠癌诊断和治疗应用中取得了惊人进展，但其在常规临床诊疗实践中仍然面临挑战。人工智能在自动分析数字病理学图像中的局限性主要体现在以下3个方面：(1)病理图像质量有待提高。计算机深度学习需要提取数字病理图像的灰度特征、纹理特征及颜色特征等信息，因此图像质量直接影响了人工智能的分析结果及准确性。高质量数字病理图像需要高水准的病理切片染色技术及性能稳定的数字切片扫描系统作为支撑，目前尚缺乏统一的数字病理图像质控体系。(2)缺乏高质量的数据集。深度学习算法需要大量的图像数据进行机器训练才能达到最佳结果，但目前尚缺少足够大且带准确标注的高质量训练数据集，故即使算法再优化也无法达到预期效果。(3)伦理及法律难题尚未解决。将先进的人工智能技术整合至临床诊断工作及实践中时，临床医生需要决定是否接受人工智能给出的病理诊断及推荐的治疗方案，且需面临是否接受由算法偏差导致的治疗后果等伦理和法律问题。在此类问题未得到有效解决前，人工智能在结直肠癌病理图像分析中的应用将受到限制。

7 小结与展望

人工智能具有强大的图像分析能力，可协助医生在诊疗过程中进行准确分析，提高诊断准确性及工作效率，是改变医疗诊断模式及实现个体化治疗的宝贵工具。目前，人工智能在结直肠癌病理诊断、分类、分子分型及预测预后等方面已取得较大进展，在个体化治疗方式选择及受益人群的筛选中发挥重要作用。但人工智能本身仍存在局限性，需制订统一的检测标准和平台，并开展前瞻性、大规模、多中心临床试验以评估人工智能系统的诊断准确性。

作者贡献：李晓燕负责查阅文献、撰写初稿；李晨、陈灏源负责修订论文；张勇、张敬东构思论文框架，审核并修订论文。

利益冲突：所有作者均声明不存在利益冲突