APP下载

基于机器学习的MRI影像组学鉴别临床显著与非显著前列腺癌

2020-10-12张沥折霞张鑫汤敏雷晓燕闵智乾李陇超宦怡

国际医学放射学杂志 2020年5期
关键词:勾画组学医师

张沥 折霞 张鑫 汤敏 雷晓燕 闵智乾 李陇超 宦怡

前列腺癌(prostate cancer,PCa)是男性常见的恶性肿瘤[1]。临床显著 PCa(clinically significant PCa,CsPCa)是指Gleason评分≥7分、伴或不伴体积≥0.5 cm3、伴或不伴前列腺包膜外侵犯的PCa,此类肿瘤恶性程度高,侵袭性强,需要积极治疗[2-3]。临床非显 著 PCa(clinically insignificant PCa,CiPCa)是 指Gleason评分<7分的肿瘤,侵袭性较低,进展缓慢,可采取随访观察和主动监测的治疗方式,而对其过度诊断和治疗反而会增加病人的负担、降低生存质量[4-5],因此术前准确鉴别CsPCa和CiPCa对于病人选择合适的治疗方案和评估预后具有十分重要的价值。影像组学可以反映整个瘤体信息,分析肿瘤异质性,辅助肿瘤的鉴别诊断,但其在前列腺肿瘤临床应用方面的报道较少[6]。本研究探讨基于机器学习的双参数MRI(T2WI+ADC)影像组学模型对CsPCa和CiPCa的诊断价值,以期为两者的鉴别诊断提供依据。

1 资料与方法

1.1 研究对象 回顾性收集陕西省人民医院2014年10月—2019年10月经病理证实为PCa的病人142 例,年龄 65~86 岁,平均(73.7±8.24)岁,其中CsPCa 101例,CiPCa 41例。前列腺特异性抗原(prostate specific antigen,PSA) 中 位 数 为 13.03(7.38~30.88)ng/mL,PSA 密度 (PSA density,PSAD)中位数为 0.19(0.12~0.31) ng/(mL·g)。 所有病人术前均进行双参数-MRI检查。纳入标准:①经穿刺或手术病理证实为PCa;②采用同一台设备进行T2WI和扩散加权成像(DWI)检查,且所有影像均于病人术前10 d内获取;③影像清晰,无明显伪影。排除标准:术前进行放疗、化疗、内分泌等治疗者。

1.2 设备与方法 采用荷兰Philips 3.0 T Ingenia MR扫描设备,使用16通道相控阵腹部线圈。病人取仰卧位,扫描范围从髂棘扫描到耻骨联合下缘。扫描序列及参数:①快速自旋回波(TSE)序列,T2WI:TR/TE=5 202 ms/100 ms,层厚 3 mm,层间距 0,视野 20 cm×20 cm,矩阵 260×260,激励次数 1。 ②DWI序列:b 值取 0、1 000、2 000 s/mm2,由 b=1 000 s/mm2的图像自动后处理重建ADC图。③动态增强(DCE)采用快速梯度序列,TR/TE=3.6 ms/1.76 ms,经肘前静脉团注对比剂(钆布醇或钆喷酸葡胺,浓度1.0 mol/L)0.1 mmol/kg体质量,注射流率2~3 mL/s,连续扫描18个期相。

1.3 肿瘤影像三维分割 首先将T2WI和ADC图数据经GE医疗公司人工智能Analysis-Kinetics(A.K)软件进行影像预处理,随后将所有预处理后的影像导入ITK-SNAP软件(3.8版本)进行病灶分割,由1名5年MRI诊断经验的医师手动逐层勾画三维体积兴趣区(volume of interest,VOI)(图 1),并由1名10年MRI诊断经验的副主任医师复阅。然后由1名工作8年的副主任医师在2组病例中分别任意选取15例勾画VOI,再由第1位医师重复勾画上述30例病例的VOI。

1.4 影像组学研究流程 ①数据预处理:采用A.K软件对提取的影像组学特征数据进行异常值处理,主要将异常值替换为所在列的中位数。通过随机分层抽样的方法将所有病例以7∶3的比例分为训练组及验证组。②影像组学特征提取:采用A.K软件对获得的VOI进行特征提取,分别自动提取6大类共402个影像组学特征,包括一阶统计特征直方图和二阶及高阶统计特征(形态学矩阵、灰度共生矩阵参数、游程矩阵参数、灰度区域大小矩阵参数、Haralick矩阵特征),并对上述特征进行归一化处理。③影像组学特征降维:采用相关性分析和LASSO算法对上述特征进行筛选。④机器学习建模:采用R-Tree和Logistic回归分析算法对上述筛选的特征参数构建模型。共构建4组模型:1)ADC特征集;2)T2WI特征集;3)T2WI/ADC 的联合特征集(先筛选再联合);4)T2WI+ADC特征集 [2种序列联合804个组学特征筛选获得的最优特征集(即先联合再筛选)]。⑤验证:使用训练组数据建立模型,通过验证组进行验证。影像组学研究流程见图2。

1.5 统计学方法 采用SPSS 25.0统计软件对数据进行分析。符合正态分布的计量资料以均数±标准差()表示,2组间比较采用 t检验;非正态分布的计量资料以中位数(四分位间距)[M(P25,P75)]表示,2组间比较采用Mann-Whitney U检验。计数资料以例表示,2组间比较采用χ2检验。采用组内相关系数(interclass correlation coefficient,ICC)分析 2 名医师(组间)和第1位医师前后2次(组内)勾画VOI结果的一致性。ICC<0.4代表一致性差,0.4≤ICC<0.75表示一致性中等,ICC≥0.75表示一致性较高。采用受试者操作特征(ROC)曲线评估模型的诊断效能,并计算相应曲线下面积(AUC)、准确度、特异度、敏感度。P<0.05为差异有统计学意义。

图2 影像组学研究流程图。A图,影像获取与病灶提取。B图,影像组学特征提取。C图,影像组学特征选择与鉴别诊断模型建立。

图1 肿瘤影像分割。A图,T2WI横断面影像。B图,基于像素沿肿瘤边界勾画二维兴趣区(ROI)。 C、D 图,ROI融合后影像的三维 VOI。

2 结果

2.1 2组病人一般资料及病灶分布比较 CsPCa组的 PSA 值高于CiPCa组 (P<0.05),CsPCa组同时累及外周带和移行带的病灶数多于CiPCa组(P<0.05)。2组病人年龄、PSAD及其他部位分布的差异均无统计学意义(均P>0.05)。详见表1。

2.2 一致性分析 2名医师T2WI上勾画VOI的平均值分别为(1.5±0.78) cm3和(1.4±0.63) cm3,ADC 图上勾画 VOI的平均值分别为(1.4±0.88) cm3和(1.37±0.92)cm3,T2WI、ADC 图上 2 名医师勾画 VOI一致性检验的 ICC(95%CI)值分别为 0.963(0.925~0.982)和 0.919(0.836~0.960)。同一名医师在 T2WI和 ADC图上第2次勾画VOI的平均值为(1.5±0.39)cm3和(1.42±0.74)cm3。 T2WI、ADC 图上同一名医师前后 2次勾画VOI一致性检验的ICC(95%CI)值分别为0.977(0.925~0.989)和 0.925(0.845~0.963)。

2.3 影像组学诊断模型的诊断效能 验证组中应用Logistic回归算法4种模型中ADC模型的AUC最高,其次为T2WI+ADC、T2WI模型,T2WI/ADC模型的AUC最低;ADC模型和T2WI模型的敏感度较高,其中T2WI模型的敏感度最高,但2种模型的特异度相对不高,T2WI+ADC模型的特异度最高,T2WI/ADC模型的特异度最低。应用Logistic回归算法,4种模型的AUC均高于R-Tree算法。2种机器学习算法的ADC模型的准确度以及T2WI/ADC、T2WI+ADC模型的特异度均相等 (表2)。验证组中基于Logistic回归算法的4种模型的ROC曲线见图3。

3 讨论

前列腺MRI和PSA检查目前已成为筛查PCa较为常用的手段,但常规检查方法难以鉴别CsPCa和CiPCa,导致临床过度穿刺活检。其次,由于传统阅片主观性较强,不同经验的医师对影像特征的把握具有一定的差异,影响疾病的诊断准确率。影像组学模型能定量反映CsPCa和CiPCa的病理学特征,而且不受主观经验的影响。目前基于MRI影像组学模型区分CsPCa和CiPCa的诊断价值国内未见相关报道,因此本研究对此内容进行初步探讨。

本研究发现,CsPCa组的 PSA值高于CiPCa组,CsPCa组病灶位于混合区的病灶数多于CiPCa组。这提示临床上对于高水平PSA的人群有必要进行MRI检查进一步明确诊断,而对于病灶范围同时累及外周带和移形带的混合区病灶应高度怀疑CsPCa。

2名医师虽然工作经验不同,但手工勾画VOI的影像组学特征结果一致性较高(ICC均>0.91),表明影像组学分析受主观经验干扰少,具有很好的可重复性。

表2 验证组中4种模型的2种机器学习算法的诊断效能

表1 2组病人一般资料及病灶分布比较

图3 应用Logistic回归算法4种验证模型的ROC曲线。ADC、T2WI、ADC/T2WI、ADC+T2WI模型的 AUC 分别为 0.908、0.864、0.762、0.868。

本研究基于MRI影像组学标签对CsPCa和CiPCa的鉴别进行了预测分析,结果显示,影像组学特征能有效地鉴别诊断CsPCa和CiPCa。分析原因可能是不同Gleason分级的PCa在细胞内部成分、液体含量、胶原蛋白水平和纤维肌肉基质等方面表现均有差异。CsPCa细胞密集,导致细胞外间隙减少,而CiPCa仍存留一些腺体结构,细胞外液存在空间,这些差异可通过影像组学模型定量反映其病理学特征[7-8]。

本研究采用了相关性分析和LASSO 2种方法来筛选特征,从而确保特征选择的稳定性和可重复性,保证所选特征对于分类器的有效价值[9]。基于ADC和T2WI的单序列模型的AUC值均较高,该结果表明在某些病人中鉴别CsPCa和CiPCa时,并不需要更多更复杂的序列,这将有助于简化扫描方案[10]。此外,对于放射科医生而言,T2WI和DWI/ADC序列在PCa的诊断中具有重要作用,也是研究者们在影像组学研究中最常应用的序列。而且,使用过多序列会因为图像分割耗时、费力而影响其在临床中的应用。因此,选择最有价值的序列更为重要。T2WI+ADC 2种序列联合804个组学特征筛选获得的特征集AUC值高于先筛选再联合的T2WI/ADC特征集,这可能与不同序列之间特征相互作用有关。

机器学习R-Tree和Logistic回归算法均可用于构建预测模型,选择适当的算法可提高模型的稳定性和预测效能。本研究结果显示应用Logistic回归算法4种模型的AUC均高于R-Tree算法,可能是由于Logistic算法是线性模型,在相同条件下线性模型的稳定性要优于非线性模型。一般认为上述2种算法均比较适合小样本和二分类变量的模型构建,但本小样本研究结果更推荐使用Logistic回归算法。同时,Logistic回归算法也是目前最常用的算法,而且易于操作。

为寻找CsPCa和CiPCa的最佳鉴别特征,Kesch 等[11]通过提取多参数(包括 T2WI、ADC、DCE序列)MRI和PET/CT的315个纹理特征,结果显示较低的平均ADC值与肿瘤侵袭性增加有明显的关联,因此影像组学模型在未来可能有助于更好地区分惰性和侵袭性PCa;但该研究未对模型进行验证,而且只包括了纹理特征。本研究除了分析纹理特征,还分析了其他高阶特征,并将病人分为训练组和验证组,提高了该模型在临床中的泛化能力。

Min等[12]研究显示,基于多参数MRI的影像组学特征可无创地区分CsPCa和CiPCa,表明多参数MRI影像组学特征对病理分级具有良好的价值;但是该研究使用多参数序列中的DCE为多期相,而且研究只分析了多参数联合诊断结果,没有对单一序列影像组学进行分析比较,研究存在一定的局限性。也有研究者[13-14]报道,在进行病灶分割时,DCE序列期相选择难以统一,且图像分割费时费力。

还有研究者[15]基于T2WI序列的影像组学机器学习模型的方法构建了PCa有无包膜侵犯的预测模型,结果表明该模型具有较好的临床实用性。与影像诊断医生的目测评估相比,影像组学诊断价值更高。该模型有助于影像诊断医生报告肿瘤是否存在包膜外扩展,以及促进PCa管理的临床决策。但是该研究仅使用了单序列分析,且仅针对包膜侵犯病例进行预测,未能有效地鉴别CsPCa和CiPCa。

本研究尚存在以下局限性:①本研究为单中心回顾性研究,将来需要行前瞻性研究并进行外部验证。②本研究尽管使用了三维VOI,且组内及组间一致性均较高,但不排除手动勾画VOI时主观因素引起的偏差[16]。③部分病理为穿刺活检结果,今后的研究应尽量基于病理组织切片,细化病理分级,建立不同分级的预测模型。④由于本研究未将影像组学特征与临床特征联合建模,还需要扩大样本量进一步研究。

综上所述,本研究使用机器学习算法常用的R-Tree和Logistic回归构建预测模型,研究结果表明基于T2WI和ADC影像的影像组学模型能够稳定、有效且无创地鉴别诊断CsPCa和CiPCa,应用Logistic回归算法效果更佳。

猜你喜欢

勾画组学医师
中国医师节
韩医师的中医缘
影像组学在肾上腺肿瘤中的研究进展
基于U-Net的自动分割方法对乳腺癌危及器官的自动勾画
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
找一找
鼻咽癌三维适型调强放疗靶区勾画的研究进展
一次调研清晰勾画——境外资本办医路线图
医师为什么不满意?
代谢组学在多囊卵巢综合征中的应用