APP下载

基于放射组学的特征选择和亚组分析对肺腺癌患者预后的预测价值

2022-03-08焦玉泉常艳亮杨春媚

实用临床医药杂志 2022年2期
关键词:放射学特征选择亚组

焦玉泉, 常艳亮, 杨春媚, 王 翔

(山西省运城市中心医院 医学影像科, 山西 运城, 044000)

肺腺癌是非小细胞肺癌的病理亚型之一,是导致全球癌症性死亡的主要原因。尽管多年来肺腺癌的治疗决策和预后有了明显的改善,但生存率仍有待进一步提高[1]。肿瘤-结节-转移(TNM)分期系统是目前常用的预后评价体系[2]。然而,即便同一分期的患者之间的生存率也可能有所不同[3]。目前,有研究[4]开始利用放射组学预测肺癌患者的预后。放射组学是一种高通量技术,用于量化医学图像中的表型特征,这些特征可能有助于预测生存预后、术前远处转移和进行组织学亚型的分类[5]。近年来,研究[6-9]显示放射组学可作为总体生存率的独立负性预测因素预测肺腺癌预后,且代表异质性的纹理特征对于准确性至关重要。目前对同一病理类型进行不同分期的亚组分析的研究较少[10-12]。本研究探讨不同放射组学特征选择和基于分期的亚组分析对肺腺癌患者预后的预测价值,现将结果报告如下。

1 资料与方法

1.1 一般资料

选取2016年1月—2018年1月在本院接受治疗的293例肺腺癌患者为研究对象。纳入标准: ① 病理诊断为肺腺癌者; ② 影像学资料完整者; ③ 未合并其他恶性肿瘤者。排除标准: ① 病理诊断不明确者; ② 全身重要脏器功能衰竭者。将患者分为训练组235例和测试组58例,患者一般资料见表1。

表1 2组患者一般资料比较

1.2 放射组学特征提取与选择

每例患者共提取107个特征,其中包括14个形状特征、18个一阶统计学特征和75个纹理特征。形状特征量化了感兴趣区域(ROI)的直径、体积以及不规则程度; 一阶统计特征用于创建像素值的直方图,并定义与该直方图有关的特征; 纹理特征用于将像素值之间的关系转换为矩阵,以衡量图像的均匀性和异质性。纹理特征包括灰度共现矩阵、灰度依赖矩阵、灰度运行长度矩阵、灰度大小区矩阵和邻域灰调差异矩阵。

107个从肿瘤区中提取的放射学特征用3种特征选择方法进行了还原,分别为: ① 特征选择1(FS1)为文献报道的测试-重复测试和多重分割来选择稳健的特征[13-15]。使用文献报道的数据集来评估当天重复CT扫描的肿瘤单维、双维和体积测量的变异性。该数据集可从癌症成像档案馆公开的在线参考图像数据库评估治疗反应测试-重测数据集中下载。测试-重测法将肿瘤的放射学分析应用于每例患者的2张图像,并用一致性指数(C-index)评估2个特征值之间的一致性,在C-index >0.85时进行特征选择。② 特征选择2(FS2)是根据所有特征的皮尔逊相关分析计算出的相关系数,将其中1个相关的特征作为多余的特征从分析中排除[12]。相关系数的绝对值≥0.8提示2个特征之间强相关的阈值[16]。③ 特征选择3(FS3)是结合FS1和FS2[17], 在使用测试检验和多重分割选择出稳健的特征后,使用皮尔逊相关分析选择非冗余的特征,阈值为0.8。

1.3 构建LASSO Cox回归模型

本实验构建了2个不同的模型: 一个是使用FS1、FS2和FS3中选定的特征的单纯放射学特征模型(放射学模型),另一个是使用选定的特征加上临床预测因子的放射学和临床特征相结合的模型(组合模型)。LASSO Cox回归模型被用来构建预测生存预后的模型。作者采用了5倍交叉验证来防止模型的简化和过拟合,并为数据选择最佳的λ。

1.4 亚组分析

肺腺癌患者依据不同的T分期创建亚组数据集。T1~T4期分别有93、96、49和55例患者。亚组分析中使用5倍交叉验证来验证构建的模型。使用分层抽样将每个亚组数据集分为5个部分,同时保持死亡患者和存活患者的比率不变; 然后,将4个部分作为训练数据集, 1个部分作为测试数据集。采用5倍交叉验证,以确保用数据数量较少的子组数据集构建的模型的可靠性。

1.5 统计学分析

采用R软件3.6.1进行数据的统计分析, Kaplan-Meier生存分析评估放射组学特征和生存率之间的关系。P<0.05为差异有统计学意义。

2 结 果

2.1 不同模型的预测性能

在放射学模型的训练和测试数据集中, FS2的C-index是所有选择方法中最高的(分别为0.64、0.61)。同样, FS2在组合模型的训练和测试数据集中的所有选择方法中具有最高的C-index(分别为0.65、0.63)。因此,FS2被应用于亚组分析,见表2。

2.2 基于T分期的亚组预测性能

表3显示了各亚组的预后表现,为了避免复杂化,显示了在5倍交叉验证中最接近测试数据集的平均C-index时的情况。所有T分期放射学模型和组合模型产生的C-index都高于所有数据,特别是在放射学模型中, T1组的测试数据集的C-index提高最多,组合模型中T4组的指数提高最多。见图1。

表2 训练组和测试组中不同模型的预测性能

表3 各亚组预后预测表现

3 讨 论

本研究探讨了基于放射组学特征选择和T分期的亚组数据集的肺腺癌患者的生存预测,对所有数据的分析并未显示出高的预后性能。然而,亚组的分析比所有数据的分析有更好的预后性能。这一结果表明,按特定的T分期分析肺腺癌可明显改善生存预测。

本研究对所有数据应用了3种独立的特征选择方法,以确定预后性能方面的最佳方法。在测试数据集中,放射组和组合模型使用FS2时获得最高的预后性能。SUN W等[18]研究表明, Cox模型中Pearson的特征选择方法在5种选择方法中产生了第2高值的C-index。LEGER S等[19]研究也表明, Cox模型中同样的Pearson特征选择方法在12种选择方法中产生了最高的C-index。这些结果与本研究结果一致(即FS2的C-index最高)。因为Cox模型用一个简单的回归方程直接预测事件发生的时间,这个模型经常产生过拟合的结果[19]。Pearson的特征选择方法可以通过去除多余的特征交互作用来减少过拟合,而且计算效率很高。基于Cox模型和Pearson特征选择方法的这些特点,可以说明这种选择方法是Cox模型预测预后的最有用的方法。

既往研究[20]通过将每个子组数据集应用于整个数据集训练模型来验证预测性能,与应用整个数据集相比,预测性能得到提高。然而,这些研究没有使用子组数据集构建训练模型,只进行了最小的子组分析。本研究同时构建全部数据和子组模型进行肺腺癌患者预后分析。结果显示,与所有数据相比,基于T分期亚组分析的预后性能提高。高预后性能是通过消除具有不同预后和异质性的亚组之间的放射学特征趋势的差异而产生的。因此,本研究采用的方法,即为每个亚组构建训练模型,可以准确反映每个组的放射学特征,并可以提高预后预测的性能。

A: 总数据的训练模型和生存模型曲线; B: T1期的训练模型和生存模型曲线; C: T2期的训练模型和生存模型曲线; D: T3期的训练模型和生存模型曲线; E: T4期的训练模型和生存模型曲线。图1 Kaplan-Meier曲线基于每个亚组的放射模型中的Rad得分

本研究旨在使用一种方法来实现足够的预后性能,以实现临床效用,该方法侧重于对具有相同特征的亚组进行预后分析。然而,在未来的临床应用之前,有一个问题必须解决,即使用免疫检查点抑制剂和分子靶向药物的治疗方法的出现,这些疗法大大改善了肺癌患者的预后[21]。因此,有必要建立一个考虑这些因素的预后模型。最近,在接受这些疗法治疗的患者的数据集中,已有研究[22]报道了与放射组学的高度关联和高度预后预测的潜力。未来的一个挑战是揭示该模型是否能适用于接受过上述治疗的患者的数据。此外,本研究是基于相对较少的患者数量,由于一些亚组的数据数量相当少,因此本研究得到的结果需要基于更多数据的研究来进一步验证。

综上所述,本研究调查了基于放射组学的特征选择和T分期的亚组分析对肺腺癌患者的生存预测,基于每个T分期组的模型较基于所有数据的模型具有更高的C-index。因此,对特定亚组的预后分析或可改善预后性能。

猜你喜欢

放射学特征选择亚组
《放射学实践》入选中国科学引文数据库(CSCD)核心库
不同煎煮方法及时间对炮附子配伍大黄治疗阳虚型便秘的效果及对心脏的影响
急性脑梗死患者血清微小RNA-145、程序性细胞死亡因子4 mRNA水平变化及诊断价值研究
正交基低冗余无监督特征选择法
血浆Lp-PLA 2水平评估冠心病患者病情及冠状动脉病变的价值
《国际医学放射学杂志》2021年总目次
《放射学实践》入选中国科学引文数据库(CSCD)核心库
《放射学实践》入选中国科学引文数据库(CSCD)核心库
冠心病患者肠道菌群变化的研究 (正文见第45 页)
基于词向量的文本特征选择方法研究