APP下载

基于影像组学的亚实性结节体积倍增时间预测分析

2021-09-03陶雪敏方瑞金鑫罗春材余石林胡飞王方赵绍宏

中国医疗设备 2021年8期
关键词:组学实性结节

陶雪敏,方瑞,金鑫,罗春材,余石林,胡飞,王方,赵绍宏

1.中国人民解放军总医院第一医学中心 放射诊断科,北京 100853;2.北京青燕祥云科技有限公司,北京 100043

引言

随着低剂量CT的普及和肺癌筛查人群的日益增加,越来越多的肺结节被检出,而亚实性的肺结节常与肺癌相关,尤其是目前发病率最高的肺腺癌[1]。亚实性肺结节包括不含实性成分的纯磨玻璃密度结节和伴有实性成分的混合磨玻璃密度结节[2]。既往研究[3-4]表明,长期存在(存在时间≥3个月[5])的亚实性肺结节多为浸润性肺腺癌或其癌前病变。尽管如此,与实性肺结节相比,亚实性肺结节的生长较为缓慢,呈一个惰性的生长方式[6]。正因为如此,当前临床对亚实性肺结节的处理和随访尚存在争议,尤其是实性成分<5 mm的混合磨玻璃密度结节以及不含实性成分的纯磨玻璃密度结节[7-8]。Fleischner学会[2]指出,倍增时间是肿瘤体积或细胞数增加一倍的时间,它在肿瘤的定性中具有相当重要的意义,是鉴别结节良恶性的重要指标。据报道,三维的体积比二维的直径更能反映亚实性结节的真实生长[9-10]。

影像组学的概念在2012年由Lambin等[11]首次提出,即从放射影像的图像中高通量地提取大量的影像特征。2017年Lambin等[12]进一步提出,影像组学是一种高通量的图像定量特征数据挖掘技术,可以搭建起医学影像与精准医疗之间的桥梁,应用于临床决策体系。近年来,影像组学作为人工智能的一个重要分支,在肺癌的精准诊治中发挥了重要的作用,例如肺癌的诊断、病理分型以及鉴别诊断等[13]。因此,本研究的目的是尝试通过影像组学方法,预测长期存在的亚实性肺结节的体积倍增时间,进而分析其在随访中的价值,以提出合理的随访计划。

1 材料和方法

1.1 一般资料

收集我院从2013年5月至2018年12月胸部螺旋CT扫描初次检查时发现亚实性肺结节且首次复查时间间隔12个月以上,随机选取患者45例作为训练集数据,其中男15例,女30例,年龄28~81岁;19例患者为单发的结节,26例患者为多发结节,共纳入结节116对;结节前后两次检查间隔时间中位数为13个月(范围:4~99个月)。另随机选取27例患者作为测试集数据,其中男8例,女19例,年龄范围31~80岁;其中12例患者为单发结节,15例患者为多发结节,共纳入结节55个。

1.2 图像获取

采用美国Philips Brilliance 256 iCT或Siemens Cardiac 64排螺旋CT扫描仪。患者取仰卧位,双臂上举,头先进,均在吸气末屏气后扫描。扫描范围包括从肺尖至膈下3 cm。扫描参数:管电压120 kVp,自动管电流调整技术,薄层重建层厚1 mm;肺窗窗宽1600 HU,窗位-600 HU;纵隔窗窗宽400 HU,窗位40 HU。复查时与首次扫描条件一致。

1.3 病灶分割

病灶感兴趣区域(Region of Interest,ROI)的精准划分对影像特征的提取以及统计学分析有着关键性的作用。为了减少手动勾画ROI区域造成的人为误差(包括同一标注人员前后两次勾画造成的组内误差以及不同勾画人员勾画造成的组间误差)以及病灶边缘信息的遗漏。本次研究采用PereDoc医疗影像标注系统(http://imgant.peredoc.com/)的半自动ROI勾画方式进行病灶分割。半自动勾画ROI是指由2位医生大致逐层勾画出结节的外边缘,再用自适应阈值分割[14]以达到更精准的病灶分割,分割结果由一名高年资医生审核。

1.4 结节匹配

通过算法对训练集前后两次CT检查上的同一亚实性结节进行匹配,再由一位医生和一位工程师核对结节是否匹配正确。有两次检查的患者共40例,有3次检查的患者共5例,其中19例患者为单发结节,13例患者为2个结节,6例患者有3个结节,5例患者有4个结节,1例患者有5个结节,1例患者有6个结节;其中有3次检查的5例患者,前后检查匹配的次数为3次,分别是第1次和第2次检查,第2次和第3次检查,第1次和第3次检查。116对结节前后两次匹配均正确。

1.5 图像特征提取与量化

由北京青燕祥云公司团队自行编程,从分割后的病灶中进行特征提取。特征提取参照ISBI标准[15]。通过对病灶变化的观察以及对结节生长速率影响因素的了解,自行编程进行影像组学特征的提取,其中下述影像组学特征的计算方法均可在ISBI中查看。以下为提取的影像组学特征及注释,提取了6类共46个影像组学特征[16],具体特征如表1所示。

1.6 数据分析

由于患者的随访间隔时间不等,原因在于不同的医生随访建议不同以及患者的依从性不一致等,因此将亚实性结节倍增时间的预测转化为增长速率的预测。结节增长率计算方式[17]见式(1)。

其中,y表示增长率,V1、T1代表第一次所测的体积及检查时间,V2、T2为第二次所测的体积及检查时间,T2-T1代表两次检查的时间差(以月计算)。

亚实性结节增长速率的分布散点图如图1所示。因此,结节的体积倍增时间,即当V2=2V1时,T2-T1即Δt的计算方式可以转化为Δt=1/GR。

图1 亚实性结节的生长速率散点图

1.7 特征筛选

特征选择的任务是从一组数量为D的特征中选择一组数量为d(D>d)的一组最优特征[18],并且过滤掉噪音数据,LASSO[19]是一种基于一范式的特征选择方法。与已有的特征选择方法相比较,LASSO不仅能够准确地选择出与类标签强相关的变量,同时还具有特征选择的稳定性[20]。因此本研究利用LASSO回归进行特征筛选。首先将所有影像组学特征归一化,归一化的方法,见式(2):

其中,z为归一化的特征参数,μ为影像特征x的平均值,σ为影像组学特征的标准差。

LASSO回归的损失函数表示为如式(3):

其中,y表示增长速率,βj为归一化后的特征z的系数,λ为正则项参数。

LASSO回归特征筛选后,非零系数的变量作为模型输入变量。为了得到合适的正则项参数λ,使用k-fold交叉验证法来调节正则项参数λ,每调节一次参数,将系数不为零的自变量作为所选特征,利用k-fold(k=5)交叉验证法得到k次回归的均方根误差,计算k次交叉验证均方根误差的平均值,均方根误差用rmse表示,均方根误差常用来作为机器学习模型预测结果衡量的标准[21-22],rmse计算公式如式(4):

其中,n表示样本个数,h(xi)表示模型输出,y表示标签,即结节增长的真实时间。

1.8 统计学分析

利用Python 3.8.1软件进行统计学分析。通过LASSO筛选特征,从总的影像组学特征中筛选出对结节增长贡献最大的特征,将筛选出的特征作为自变量,利用多重线性回归构建预测模型。

2 结果

2.1 亚实性结节半自动分割

先由2位医生如图2所示逐层大致勾画出结节的外边缘(同层面的病灶约占ROI的2/3,正常肺组织约占ROI的1/3),不含血管结构,若有血管穿过病灶,则该血管当作病灶内的一部分处理,然后对手动勾画的ROI采用自适应阈值分割达到更高的分割结果如图3所示。

图2 手动逐层勾画ROI

图3 自适应阈值分割

2.2 基于LASSO回归及k-fold交叉验证法筛选的特征

LASSO回归对46个影像组学特征以及2个临床特征(患者的年龄、性别)进行筛选,当增大正则项参数时,正则项的惩罚力度加大,部分自变量的LASSO回归系数变为零,则可以筛选出非零系数的特征作为模型的输入变量。如图4所示,当λ为0.086时,均方根误差下降到最低点,此时筛选出5个特征,分别是病人的年龄(Patient Age)、GLCM的熵(GLCM entropy)、GLSZM的小区域强调(GLSZM small area emphasis)、形态学特征的分形维数(Fractal Dimension)和致密度 2(Compactness2)。

图4 基于LASSO回归及k-fold交叉验证筛选的特征

2.3 基于多重线性回归的模型

基于LASSO回归以及k-fold交叉验证,筛选出5个特征及其系数,分别为Patient Age、GLCM entropy、GLSZM small area emphasis、Fractal Dimension 和 Compactness 2。在使用k-fold(k=5)交叉验证法选择特征时,筛选出的5个特征在均方根误差最小时的系数分别为0.024、0.010、-0.029、-0.013和0.018,此时的均方根误差为0.036。由于本次入组患者前后两次检查时间间隔不定(中位数13个月,范围4~99个月),因此通过预测结节的增长速率来间接预测结节的倍增时间。进行特征筛选与模型建立时,用式(2)对所有特征进行归一化。利用多重线性回归建立预测亚实性结节的增长速率模型前,将所有特征进行归一化处理,筛选出的5个特征归一化需要的平均值和标准差如表2所示。

表2 特征归一化所需的平均值与标准差

2.4 在测试集中验证模型的预测效果

将年龄及4种影像组学特征根据表2中的数据结果,经过归一化后分别代入式(5)即可预测出结节增长速率,从而求得倍增时间。测试集验证结果如表3所示。

表3 影像组学特征预测倍增速率部分结果展示

3 讨论

在我们的研究中,找到了影响长期存在亚实性肺结节生长的影像组学特征和临床特征,影像组学特征分别为GLCM entropy、GLSZM small area emphasis、Fractal Dimension、Compactness2,临床特征为患者的年龄。利用得到的这些特征计算亚实性结节的生长速率,并构建了亚实性结节倍增时间的预测模型。在验证集中,通过与亚实性结节的真实平均生长速率(0.041 mm3/月)相比较,预测生长速率为0.038 mm3/月,略小于亚实性结节的实际增长速率。因此,本研究基本实现了基于影像组学对亚实性肺结节生长速率预测,从而估计亚实性肺结节的倍增时间。基于此研究,我们可以通过患者初次的CT检查,预测其倍增时间,以此作为一个重要的参照,给出长期存在亚实性肺结节的随访建议。

既往的研究[23-24]通过公式VDT=[log2×T]/[log(Vfinal/Vinitial)]计算肺结节的倍增时间,继而鉴别难以定性的肺结节良恶性。该方法的主要缺点是需要两次CT检查才能确定结节的倍增时间,增加患者的辐射暴露与心理负担。本研究利用影像组学技术,尝试找到通过一次CT检查就能预测结节倍增时间的方法,人类肉眼很难做到这一点,当然其结果的可靠性还需要更多前瞻性的临床验证。

既往国内外研究报道良性肺结节倍增时间都长于恶性肺结节,周科峰等[23]的研究报道炎性肺结节的倍增时间非常短(小于30 d)或良性肺结节的倍增时间相当长(180 d以上),而恶性肺结节的倍增时间由于病理类型不同,平均倍增时间在35~136 d。齐琳琳等[24]研究发现浸润性肺腺癌的倍增时间明显短于微浸润性肺腺癌、原位腺癌、不典型腺瘤样增生,且当纯磨玻璃肺结节的体积倍增时间<2095.86 d时,提示其病理类型为浸润性腺癌的可能性大。Qi等[25]认为在初次CT检查时,纯磨玻璃密度的肺结节的体积可以预测结节的增长。本研究创新性的采用影像组学方法,通过首次的CT检查图像,找出了影响亚实性肺结节增长的影像组学及临床特征,成功构建了预测亚实性肺结节生长速率的模型,并取得了一定的效果。

既往影像组学用于肺结节的研究时多基于肺结节的分类。梁伟等[26]通过构建独特的影像组学特征,小细胞肺癌与非小细胞肺癌预测的准确率为75%,可以提供良好的参考价值。Fan等[27]研究发现影像组学特征与传统的CT形态学表现或平均CT值相比,在术前鉴别磨玻璃结节浸润性(即浸润性肺腺癌与非浸润性病变)时有更高的预测效能。而本研究利用是基于影像组学特征建立亚实性结节倍增时间的预测模型,由于不同结节的倍增时间是完全不同的,且倍增时间是一个连续性的变量,因此不能用分类变量的评价方法,如准确率等,所以我们使用均方根误差来评价回归模型[21-22]。本研究的均方根误差为0.036,同时在测试集中验证了该模型,效果较好。

本研究不足的地方在于:① 样本量较少,在后期我们将进一步扩大样本数量以取得更具鲁棒性的预测模型;② 本研究是半自动勾画病灶 ,较为费时费力,但保证了病灶分割的准确性同时保留了病灶的边缘性;③ 本研究除性别和年龄外,未纳入更多的临床特征;④ 本研究只纳入体积倍增时间,没有纳入质量倍增时间。由于本研究是探索性研究,后期我们会针对以上缺点提出解决方案优化模型。

总之,本研究通过影像组学特征的提取与筛选,找出了影响亚实性肺结节倍增时间的影像组学特征,并成功建立了亚实性肺结节倍增时间的预测模型,对长期存在的亚实性肺结节随访周期和随访间隔的复查策略提供了重要的量化信息,有助于临床决策。

猜你喜欢

组学实性结节
胰腺实性浆液性囊腺瘤1例
肺结节,不纠结
发现肺结节需要做PET/CT吗?
从气、虚、痰、瘀辨治肺结节术后咳嗽
口腔代谢组学研究
体检查出肺结节,我该怎么办
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
实时超声弹性成像诊断甲状腺实性结节的价值
胰腺实性假乳头状瘤14例临床诊治分析
代谢组学在多囊卵巢综合征中的应用