APP下载

人工智能在功能与分子影像学的研究进展

2020-12-20郑博文陈卫国秦耿耿

分子影像学杂志 2020年1期
关键词:帕金森病效能特征

郑博文,陈卫国,秦耿耿

南方医科大学南方医院放射科,广东 广州 510515

功能与分子影像学的产生与发展使影像学从单纯的诊断过渡到疾病的预防、预测以及发生机制的探索。功能与分子影像包括CT灌注、MR灌注、PET、SPECT、PET/CT、PET/MR等技术,它们能够在组织、器官、细胞乃至分子水平上反映器官或组织的血流、代谢与功能的变化、基因的异常表达、细胞信息传导等信息,在疾病的早期诊断、有效治疗、预后预测、探索发病机制等方面具有重要意义。

人工智能这个概念由由McCarthy于1956年正式提出。机器学习和深度学习作为人工智能的重要分支,在医学影像学有着广泛的应用。机器学习即从数据中提取知识,通过复杂的算法来分析大量数据,识别数据中的模式,并作出一个预测。在样本的数量不断增加的同时,可以自我完善学习能力,提高模型性能。2006年,Hinton[1]提出深度学习的概念。深度学习是以人工神经网络为架构,具备至少一个隐层,能够对数据进行表征学习的算法。通过对多个层的堆叠,上一层的输出作为下一层的输入,实现对输入信息进行分级表达,从中学习到数据集的本质特征。

人工智能能够处理大批量、高维度的信息,但是人类观察、收集、处理信息的能力是有限的。为了得到更广泛、更高维度的信息,也更加充分地利用得到的信息,影像组学应运而生。2012年,Lambin[2]首次提出影像组学的概念,即高通量地从医学图像中提取特征。影像组学提取的特征能够更加深入挖掘图像的生物学本质,在疾病诊断、治疗和预后方面都有较大潜力。

本文旨在讨论人工智能在功能与分子影像学中图像处理、图像解释及质量控制的应用,总结应用中存在的问题,期望提高使用者对人工智能应用的认识,促进人工智能在医学影像学的应用。

1 图像处理

1.1 图像降噪

PET是一种用于正电子类放射性药物显像的影像设备。PET图像的噪声除了由设备本身的固有特性造成外,在一定扫描时间内探测到的光子对数量太少,或者药物剂量的减低都会造成图像噪声的增加。Cui等[3]构建了一种基于深度神经网络(DNNs)的PET图像降噪算法。他们将PET/CT和PET/MR中的CT/MR图像作为输入,有噪声的PET图像作为标签训练基于U-Net的DNNs网络。使用肺部PET/CT、肺部PET/MR、肝脏PET/MR数据集进行验证时,DNNs算法取得的对比噪声比提高率分别是(53.35±21.78)%、(35.91±10.48)%和(43.37±30.85)%。

1.2 衰减校正

正电子类放射性核素衰变释放出的正电子与普通电子相互作用时会发生湮灭反应,产生两个方向相反的γ光子对。γ光子对可以与人体相互作用发生光电吸收或康普顿散射效应,造成γ光子对在LOR上的计数减少,即衰减效应。因此,需要对PET成像进行衰减矫正。Shiri等[4]构建了仅使用正电子发射数据的PET图像深度学习衰减校正架构,该架构使用跳跃连接将编码网络和解码网络连接在一起。未衰减校正的2D PET图像输入编码网络后,编码网络会对每个像素进行重建,输出衰减校正后的图像,最终合成衰减校正后的3D PET图像。经过深度学习衰减校正架构衰减校正后的图像的SUVmean和SUVmax的相对误差分别是-0.1±2.14和-3.87±2.84。Arabi等[5]则使用基于新型对抗语义结构的深度学习网络(DLAdvSS)对大脑PET/MR图像进行MRI引导下的衰减校正。与PET/CT不同,PET/CT中CT图像反应的是物质的密度信息,通过双线插值可以建立HU值与PET图像衰减系数之间的转换关系。PET/MR图像的衰减校正难点在于MRI图像中组织的信号强度与PET图像中相应部位的衰减特性之间没有直接关系。DL-AdvSS包括综合生成对抗网络(SynGAN)和分割生成对抗网络(SegGAN)。SynGAN利用输入的MRI图像生成合成CT图像(sCTs),然后由SegGAN将sCTs图像根据HU值的不同分割成气腔、软组织、骨、背景等4个类别,赋予不同的衰减系数,最终得到衰减校正后的图像。以基于CT图像的衰减校正PET作为标准,DL-AdvSS衰减校正后的头部PET图像SUV平均误差和平均绝对误差分别是2.6±2.9、3.7±8.5,性能表现与地图集法相当,均优于组织分割法。

1.3 图像量化分析

左心功能的量化分析在心血管疾病的诊断及预测上至关重要。传统的左心功能量化分析方法需要全手工或半自动地对多幅图像进行左心室的探测及分割,不仅费时费力,而且一致性较低。Tao等[6]使用基于U-Net的深度学习网络,对心脏MR快速成像构建了全自动左心功能量化分析模型。该模型能够全自动地检测和分割左心室结构,并对左心室功能进行量化分析。他们分别使用基于单一设备的单中心单病种数据集、单一设备的多中心多病种数据集、多种设备的多中心多病种数据集训练了3个基于U-Net的卷积神经网络CNN1、CNN2、CNN3。测试结果表明,CNN3全自动分割和人工分割的左心室心尖段、中间段、基底段戴斯相关系数分别是91±8、96±2、94±5,优于CNN1和CNN2,说明经高度多样性数据集训练的模型具有更高的诊断效能。并且和人工分析结果相比,CNN3获得的左室舒张末期容积、左室收缩末期容积、左室心肌质量、左室射血分数具有较高相关性和一致性。

2 图像解释

2.1 疾病诊断

2.1.1 CT功能影像中的应用 CT功能成像应用相对狭窄,主要集中在各组织器官灌注成像和心脏动态功能成像上。血流储备分数作为评价冠脉狭窄功能性评价的公认指标,能够提供冠脉CT造影无法提供的心血管功能性信息。但是传统的FFR计算方法需要放置心导管,属于有创检查。Yu等[7]使用机器学习方法(cFFR, version 3.0; Siemens Healthineers)从CT图像中计算出患者的冠脉血流储备分数(ML-FFRCT),以诊断血流动力学变化显著的冠脉狭窄疾病。结果表明,ML-FFRCT诊断血流动力学显著变化的冠脉狭窄疾病(FFR<0.8)的敏感性、特异性、准确性和AUC值分别是81.2%、83.6%、82.7%和0.873,诊断效能优于CCTA。同样是使用基于机器学习的冠脉CT血流分流储备算法(cFFR, version 3.0; Siemens Healthineers)检测血流动力学变化显著的冠脉狭窄疾病。有研究纳入81位患者,比较ML-FFRCT与CT心肌灌注成像(MPI)的诊断效能[8]。结果表明,MPI中的心肌血流参数(MBF)在以99/100 mL/min作为截值时,取得的AUC值为0.97,超过ML-FFRCT的AUC值0.85。对于每条血管出现狭窄的诊断效能,MBI和ML-FFRCT的诊断敏感性分别是96%和88%(P<0.01),MBI的特异性和准确性分别是93%和94%,超过MLFFRCT的68%和78%。样本量不足可能是导致MLFFRCT诊断特异性和准确性较低的重要原因,也更加强调了数据多样性及丰富性的重要性。

除了样本数据会对ML-FFRCT的诊断效能产生影响,Tesche等[9]发现使用ML-FFRCT(cFFR,version 2.1;Siemens Healthineers)鉴别心肌缺血性疾病(FFR<0.8)时,冠状动脉钙化分数对ML-FFRCT的诊断性能也有显著影响。在血管水平上,对于Agatston评分分别为0、0~100、100~400、>400的4组血管,ML-FFRCT的AUC值分别为0.83、0.85、0.86、0.71,说明随着Agatston评分的升高,ML-FFRCT的诊断效能明显下降。

同样为了克服冠脉CT造影无法提供功能性信息的缺点,利用机器学习结合深度学习的方法,对CCTA中冠状动脉中等狭窄(狭窄程度25%~69%)的患者进行进一步分类[10]。CCTA中狭窄程度≤24%的患者被认为非功能受损性狭窄,狭窄程度≥70%的患者被认为存在冠脉功能受损。他们将CCTA图像输入CNN网络,首先进行左心室心肌的自动勾画,然后利用卷积自动编码器提取图像中的特征信息,最后基于这些特征信息构建支持向量机模型鉴别CCTA中冠状动脉中等狭窄患者的冠脉功能是否受损。

2.1.2 MR功能影像中的应用 fMRI主要包括弥散基础上的fMRI、灌注基础上的fMRI和血氧水平上的fMRI等,具有分辨率高、定位准确、方式多样等优点,在组织、器官乃至分子水平的功能评价、血管生成、肿瘤检出等方面都有较大优势。

MRI脑灌注成像在诊断急性脑梗塞中有重要价值,能够提高脑梗塞诊断的准确性、预测脑梗塞的进程及辅助再灌注治疗方案的选择。Meier等[11]使用基于CNNs的脑灌注MRI剩余函数达峰时间(Tmax)灌注图像来诊断急性脑梗塞。研究者分别使用常规的oSVD法和CNN获得Tmax灌注图像,并由2名资深医师对Tmax>4 s、Tmax>6 s、Tmax>8 s的区域进行勾画。结果表明基于两种Tmax灌注图像勾画的区域具有较高一致性,戴斯相关系数0.70~0.85,说明CNN-Tmax在诊断急性脑梗塞上具有与常规的oSVD法相当的诊断效能。Park等[12]使用MRI图像中的T1增强图像、ADC图、各向异性图提取影像组学特征并构建多个机器学习模型对脑膜瘤进行分级。结果表明基于随机森林和支持向量机的机器学习模型取得最佳的分类效能,AUC、准确性、敏感性、特异性分别为0.86、89.7%、75.0%、93.5%。

Zhang等[13]构建了使用心肌MR电影成像的全自动深度学习慢性心肌梗死检测架构。该架构首先对输入的心肌MR电影成像进行左心室的定位和分割,然后对系列图像进行运动特征提取,最后判断该患者是否存在慢性心肌梗死。该架构的敏感性、特异性、AUC值分别是89.8%、99.1%和0.94,与磁共振延迟钆强化(LGE)图像的诊断效能相当,并且能够避免LGE的肾脏损害等副作用。

表观弥散系数(ADC)是前列腺MRI图像中具有诊断意义的参数。Bonekamp等[14]建立了基于影像组学的前列腺癌机器学习诊断模型(RML),并比较该模型与ADC值的诊断效能。研究者在T2加权图像、ADC图像、b=1 500 s/mm2图像中勾画出感兴趣体积(VOIs)后,对VOIs内的图像进行影像组学特征提取,使用单变量特征选择法筛选特征,然后训练基于随机森林的前列腺癌预测模型。训练后的模型诊断性能分别与平均ADC值、影像科医生的诊断效能比较。测试集结果表明,在病灶水平上RML和平均ADC的AUC值分别是0.88和0.84,没有统计学意义(P=0.176)。RML、平均ADC、临床医生的诊断敏感性、特异性分别是97%和58%、90%和62%、88%和50%。在患者水平上,RML、平均ADC、影像科医生的诊断敏感性、特异性分别是96%和51%,93%和51%、89%和43%。说明和影像科医生相比,RML法和平均ADC均能提高诊断的特异性。同样为了诊断前列腺癌,Aldoj等[15]使用多参数MRI图像建立了基于3DCNN的前列腺癌自动化诊断模型。使用ADC、DWI、K-trans图像作为输入时,模型取得最优的平均AUC值0.897,与影像科医生的诊断效能相当。

研究表明,Gleason 4级的前列腺癌和非Gleason4级前列腺癌在基因和预后方面都有着较大差异[16]。因此,他们构建Gleason 4级前列腺癌机器学习诊断模型。研究者在T2加权图像、ADC图像和动态对比增强图像(DCE)勾画出VOIs后,使用MIM symphony软件获得VOIs的定量特征,并与临床信息如PSAd等结合,针对外周带和移行带(TZ)分别训练基于逻辑回归、朴素贝叶斯、支持向量机、随机森林、前馈神经网络的Gleason 4级前列腺癌机器学习诊断模型。结果表明使用PSA、ADC和DCE的外周带逻辑回归分类器取得最高的AUC值0.83,使用ADC和DCE的TZNB分类器取得最高的AUC值0.75。基于逻辑回归的外周带分类器在特异性阈值设为50%时取得最高的诊断敏感性93%,优于3名影像科医生的平均特异性和敏感性(40%、72%)。基于朴素贝叶斯的移行带分类器在特异性设置为50%取得的敏感性为88%,优于3名放射科医生诊断的平均敏感性82%。

有研究使用112位患者的T1WI、T1增强序列图像构建了基于SVM的零细胞腺瘤与其他亚型非功能性垂体腺瘤鉴别模型。研究者将112名患者的T1WI、T1增强图像进行手动勾画ROIs后进行影像组学特征提取,训练基于SVM的机器学习模型,该模型最终在训练集中取得了0.80的AUC值[17]。

2.1.3 分子影像中的应用 PET/SPECT图像能在分子水平上反映人体代谢、生化等功能信息及受体分布情况。通过不同的示踪剂,PET能够反映该示踪剂代表的分子及相应生物活动信息,帮助医生判断疾病的性质、程度、范围,甚至发病机制。

帕金森病是一种渐进性的神经系统疾病,主要特征是多巴胺神经元的变性。123I-FP-CIT SPECT多巴胺转运体成像能够检测帕金森病患者中的多巴胺神经元变性,对帕金森病的诊断具有重要作用。为了提高诊断的准确性和一致性,寻找诊断帕金森病最有意义的特征,有研究使用123I-FP-CIT SPECT图像构建帕金森病机器学习诊断模型[18],该研究从帕金森病进展标志倡议中选取的652例患者的SPECT图像中提取了特异性结合率(SBR)、尾状核结合力(CBP)、壳核结合力(PBP)、纹状体结合力(SBP)、壳核-尾状核结合力比率(PCR)5个纹状体摄取率特征和纹状体摄取区域体积、长径2个形态学特征,分别使用这些特征构建了SVM、kNN近邻和逻辑回归3个机器学习预测模型。结果表明单独使用SBP、PBP、Length特征构建的SVM机器学习模型具有最高的诊断准确性,分别是93.9%、95.4%和96.5%,说明与摄取率特征相比,纹状体摄取区域长径在诊断帕金森病中也具有重要意义。

SBR是评价多巴胺转运体功能的指标。SBR在诊断帕金森病中的价值有限,或仅仅对于辅助初级医师诊断帕金森病有一定意义[19-20]。限制SBR诊断效能的主要因素是不同中心、不同设备及运动伪影导致的图像多变性[21]。为了克服图像多变性这个问题,他们使用多中心、多设备的FP-CIT SPECT图像训练了基于CNN的深度学习帕金森病诊断模型。他们对从PPMI中获取的645位患者的SPECT图像进行平滑处理以模拟低质量图像,组成3个图像集:PPMI原始图(645例);平滑处理后PPMI图(645例);原始+平滑处理后PPMI图(1 290例),然后分别评估HV-SBR法、AAL-SBR法、CNN法在3个图像集中的诊断效能。结果表明,在混合PPMI图像中,HV-SBR法和AALSBR法的诊断准确性分别是0.951±0.010和0.900±0.029,都较其在原始PPMI图像和平滑处理后PPMI图像低,分别是0.966±0.011和0.957±0.015、0.957±0.017和0.952±0.015(P<0.01)。CNN法在3个图像集中的准确性分别是0.972±0.014、0.955±0.009、0.967±0.018(P=0.188)。该研究证明,和传统的SBR相比,经过多参数图像训练的深度学习模型在诊断帕金森病上具有更高的鲁棒性和相近的诊断准确性。Choi等[22]同样建立了基于CNN的深度学习帕金森病诊断模型PD NET,结果表明PD NET的诊断准确性与资深核医学专家诊断准确性相当,并且拥有更高的稳定性,能够克服人工评估的不一致问题。此外,该模型能够对影像学检查中无多巴胺缺陷的患者(SWEDD)进行进一步诊断。PD NET分析该研究中的77例SWEDD图像时,认为其中6位患者存在多巴胺能缺乏。在随后2年的随访复查中,这6位患者有4位确诊为帕金森病,1位为阿尔兹海默病,1位未能完成随访;PD NET认为多巴胺能正常的患者,在随后两年的随访中94.6%的患者多巴胺能仍然维持正常,证明部分帕金森病患者可能被误诊为SWEDD,而PD NET对帕金森病的进一步诊断具有一定价值。

有研究建立了使用SPECT心肌灌注图像的深度学习网络来诊断缺血性心肌病(冠脉血管阻塞>70%)的模型,并将模型的诊断效能与SPECT心肌灌注中的总灌注不足的诊断效能相比较[23]。结果表明深度学习模型在患者水平和血管水平诊断效能优于总灌注不足。使用68Ga-Pentixafor PET/CT图像训练基于CNNs的多发性骨髓瘤诊断模型,该模型包含由两个V-Net组成的W-Net,分别负责对全身异常浓聚部位的检测及诊断,结果表明该模型对多发骨髓瘤的诊断效能优于传统的机器学习模型[24]。

在探索发病机制上,Zhang等[25]使用18F-FDG PET/CT图像构建了非小细胞肺癌表皮生长因子受体(EGFR)变异诊断模型,该研究纳入248位接受了18FFDG PET/CT和EGFR检测的患者,将PET/CT图像中影像组学特征提取后,结合临床信息训练EGFR变异诊断模型。结果表明,该模型在诊断EGFR变异中有较好的诊断效能,AUC值、敏感性、特异性、准确性分别是0.87、91.67%、70.27%、80.82%。该模型能够无创检测是否存在EGFR变异,在临床治疗尤其是选择靶向药上具有重要意义。

2.2 预后预测

人工智能算法及机器计算力的发展,使我们能够更加迅速地处理大批量信息,更加深入地挖掘信息的价值。人工智能的应用使得影像科医生能够将关注点从现在转移到未来,对患者的生存率、治疗效果等进行预测。

肺动脉高压指静息状态下,右心导管检测肺动脉平均压≥25 mmHg的一组疾病,可以导致呼吸困难、运动耐量减低甚至是右心衰等一系列后果。目前已经有研究通过血流动力学数据、心肌标志物、运动测试等手段预测肺动脉高压的预后,表示肺动脉高压患者生存率与右心室功能高度相关[26]。心脏MRI图像能够提供右心功能的详细信息,因此有学者通过建立机器学习预测模型来预测肺动脉高压患者生存率,该研究纳入256位接受了心脏MR快速成像检查的新诊断为肺动脉高压的患者,收集包括临床信息、心血管血流动力学信息、心脏功能信息、MR容量信息、心脏3D运动特征信息等资料[27]。研究者对获得的信息进行监督性主成分分析,获得对预测生存率最有意义的特征,然后将得到的特征分成3组分别训练3个考克斯比例风险模型。模型1包括:临床信息(性别、年龄、肺动脉高压亚型等)、血流动力学信息(右心房压力、右心室舒张末期压力)、心脏功能信息(NYHA分级、6 min步行试验结果);模型2除了包含模型1中的所有信息及MR容量信息(右室舒张末期容积、右室收缩末期容积、右室射血分数等);模型3包含模型1、2中的信息及心脏3D运动特征信息。在最高长达5年的随访中,一共有93(36%)位患者死亡。将3个模型的预测结果进行比较,模型3具有最高的AUC值和危险比率,分别是0.73和1.99,超过模型1和模型2的结果:0.60和1.66、0.64和1.71。同时监督性主成分分析,结果显示心脏3D运动特征信息的危险比率最高达到2.745,说明该特征与右心衰预后关系最密切。

Betancur等[28]使用131Tm SPECT MPI构建了主要心血管不良事件预测模型,共纳入2 689位患者的临床信息、MPI图像信息、视觉评估信息、压力测试特征等信息,使用信息增益率对特征重要性进行排序,将特征分成4组训练基于LogitBoost的心血管不良事件预测模型:模型1包含所有特征;模型2只包含MPI图像特征;模型3仅包含视觉评估特征;模型4仅包含压力测试特征。在随访的3.2±0.6年间,共有239位患者出现主要心血管不良事件,其中150位(5.7%)患者死亡,11位(0.4%)出现非致命性心肌梗死、24位(0.9%)出现不稳定心绞痛、54位(5.7%)进行晚期血运重建治疗。实际结果与模型预测结果相比较,模型1取得最高的AUC值0.81,优于其他3个模型。并且模型1的Brier分数为0.07,表示模型预测结果和实际观察到的结果有较高一致性。

PET/CT将PET和CT结合,能够同时提供病灶的功能与代谢等分子信息、结构与定位等解剖信息。对PET/CT融合图像进行纹理分析,构建食管癌患者的预后预测模型[29],纳入403位食管癌患者(训练集302人,测试集101人),由放射科医生对肿瘤代谢区域进行勾画后,提取包括一阶统计量、灰度共生矩阵、灰度区域大小矩阵等影像组学特征,结合年龄、治疗方法等临床特征训练4个Cox回归模型,其中仅有模型4包含PET/CT图像纹理信息在内的所有特征。最终,测试集中患者死亡人数是58(57.4%)。将实际结果与模型预测结果相比,以赤池信息准则(AIC)作为评价标准,拥有PET/CT图像纹理信息的模型4拥有最低的AIC值464.671。同时Cox回归分析表明,与预后相关性最强的6个特征中有3个为纹理特征,说明PET/CT图像的影像组学纹理特征在食管癌预后预测中具有一定的价值。

3 质量控制

人工智能在医学影像学中已经得到较为广泛的应用,但是目前并没有太多研究探讨对人工智能输出结果的质量控制。Ruijsink等[30]在构建使用心脏MR的深度学习全自动心功能分析模型之后,构建了基于机器学习的心功能输出结果质量控制模型。该研究由一位资深医师将CNNs输出的全自动分割的心脏区域和功能数据标记为正常或异常,分别训练SVMvol和SVMtrain两个支持向量机模型。SVMvol主要分析深度学习模型中自动勾画的心脏区域是否符合要求。比如长轴图像是否包含了短轴图像中的二尖瓣和心尖区,所有短轴图像的层厚是否与长轴图像的长度相符等。SVMtrain分析输出的心功能指标,如果左心室和右心室的每搏输出量差异>10%,或者第一层和最后一层的输出的心腔容积差异大于10%,该输出结果就会被模型标记为错误,结果显示有75例(4%)的心肌勾画结果被标记为错误,119例(7%)的功能输出结果被标记为错误,说明质量控制模型在无需人工审核的情况下,控制输出数据的质量,补足了人工智能与影像学结合应用中的最后一环,在大规模推进人工智能应用的进程中具有重要意义。

4 总结

人工智能与功能与分子影像学的结合在图像处理、图像解释等方面都取得了一定的成果。从前期的图像处理,到中期图像解释,后期质量控制,形成了一个比较完整的流程。但与人工智能在其他影像学手段中的应用一样存在一些共性问题。从X线到PET/CT,机器学习到深度学习,病灶分割到功能量化分析,疾病分类到预后预测,人工智能在医学影像学的应用有着从宏观到微观、全面到具体、现在到未来的趋势。而这种趋势归根究底是由影像检查技术的革新和人工智能算法的改进推动的。如果以人工智能完全结合在临床应用中作为目标,我们还远远达不到。除了需要上述提到的检查技术和人工智能算法的革新,更加全面、多样化的数据集,更加广泛的临床验证和应用工作都亟待进行。此外,解开人工智能算法的“黑箱”也相当重要,部分人工智能算法在医学影像应用中的不可解释性,导致临床医生较难去信任这一工具。从多方面改善人工智能在医学影像学的应用内,不仅能使患者受益,甚至可能革新影像科医生的工作流程,改变影像科医生在临床诊疗过程中的角色。

猜你喜欢

帕金森病效能特征
关注帕金森病患者的睡眠障碍
改善生活方式,延缓帕金森病进展
手抖一定是帕金森病吗
离散型随机变量的分布列与数字特征
芝麻素酚或能预防帕金森病
提升水域救援装备应用效能的思考
充分激发“以工代赈”的最大效能
基于排队论的信息系统装备维修保障效能分析
抓特征解方程组
不忠诚的四个特征