APP下载

基于机器学习的结直肠癌微卫星不稳定基因挖掘及其应用价值分析

2022-11-10李秀勤韩腾辉王帅沈刚朱军

中国普通外科杂志 2022年10期
关键词:微卫星免疫治疗测序

李秀勤,韩腾辉,王帅,沈刚,朱军

(1.中国人民解放军南部战区空军医院 普通外科, 广东 广州 510000;2.中国人民解放军空军军医大学西京医院 神经内科,陕西 西安 710000;3. 中国人民解放军空军西安飞行学院一旅明港场站医院 门诊部,河南 信阳 463200)

流行病学研究表明,结直肠癌(colorectal cancer,CRC)作为全球发病率排第2 位、致死率排第3 位的肿瘤,已经成为威胁人类健康的重要疾病之一[1]。目前,我国结直肠癌的发病率在常见恶性肿瘤中排第3 位、病死率排第5 位[2]。各大指南推荐所有的CRC 患者需要检测微卫星状态,以完善患者的临床诊断,治疗指导和预后评估[3]。微卫星广泛存在于原核及真核生物基因组中,具有较高的遗传稳定性,但在错配修复基因功能发生异常时,子代细胞微卫星的重复核苷酸数量可以增多或减少,从而导致微卫星的长度不再保持一致,这种现象称微卫星不稳定(microsatellite instability,MSI)。 而一种或多种错配修复蛋白的缺失(deficient mismatch repair,dMMR)往往会导致高频MSI(MSI-H)[4]。此外,有文献[5]报道错配修复蛋白的免疫组化检测与MSI 的PCR 检测结果具有高度的一致性,因此,本研究将MSI-H/dMMR 作为相似的一组进行分析。随着免疫治疗的兴起,尤其是抗PD-1/PD-L1 药物的实体肿瘤的治疗出现了新的转机。PD-1/PD-L1 是肿瘤细胞进行免疫逃逸的重要分子通路,抗PD-1/PD-L1 可以明显增强肿瘤浸润免疫细胞的杀伤能力[6]。但是,由于PD-1/PD-L1 的表达量低而使得CRC 的免疫治疗受到了极大的限制。目前,CRC 的免疫治疗现在主要适用于MSI-H/dMMR 的患者[7-8]。目前MSI-H 和免疫检查点治疗的内在机制研究开展较少,而除了错配修复蛋白基因的研究外,关于结直肠癌MSI 特征基因也未得到深入广泛的研究。本研究的目的是使用机器学习筛选MSI 诊断效率最高的基因,并且研究基因和肿瘤免疫微环境的相关性。

随着机器学习和人工智能在医学领域的广泛运用,病理辅助诊断[9]、疾病精确诊断[10]和个性化治疗[11]已逐渐在临床上得以实现。同时二代测序技术为CRC 患者精准治疗提供了极大的便利。因此,本研究的主要目的是,使用机器学习和数据库验证分析等方法在CRC 患者测序数据中,发掘新型的MSI 特征基因,为临床研究和应用提供新的线索和方向。

1 资料与方法

1.1 研究对象

研究对象为临床确诊的CRC 患者人群。研究对象的纳入标准为:⑴年龄≥18 周岁;⑵ 已知微卫星状态或错配修复基因缺失情况的患者;⑶ 测序数据完整的患者(基因二代测序或者组织芯片)。排除标准为:⑴ 合并其他肿瘤的患者;⑵ 生存时间少于30 d 的患者;⑶ 未采取手术治疗而无法获取大体病理资料的患者。该研究已通过中国人民解放军南部战区空军医院审核批准。

1.2 数据收集

在GEO 官网(https://www.ncbi.nlm.nih.gov/geo)下载CRC 完整测序数据GSE39582,在TCGA 官网(https://portal.gdc.cancer.gov) 下载CRC 测序数据TCGA-COAD。由于GSE39582 的CRC 样本量较大,因此本研究将GSE39582 作为训练集,将TCGACOAD 作为外部验证集。此外,使用Linear Models for Microarray Data(LIMMA)包中normalizeBetweenArrays 函数对数据进行标准化处理,通过SVA 包中的Combat 函数去除2 个数据集的批次效应。

1.3 研究对象分组

按照微卫星状态或者错配修复基因的表达水平,本研究分别将GSE39582 和TCGA-COAD 数据集中的患者分为MSI-H/dMMR 组和低频度MSI(MSI-L)或微卫星稳定(MSS)/错配蛋白完整(pMMR)组。本研究把MSI-L-MSS/pMMR 组作为对照组,MSI-H/dMMR 组作为观察组。使用LIMMA 包对差异基因进行筛选,其校正方法为FDR 法。筛选条件为:|log2(差异倍数)|>1.5 并且FDR 值<0.05。

1.4 机器算法

为了得到更精确的MSI 特征基因,分别使用LASSO 回归算法和支持向量机-递归特征消除(SVM-RFE) 算法对上述得到的差异基因进行筛选。LASSO 回归算法:使用glmnet 包,alpha 参数设置为1,交叉验证为10,高斯分布用于交叉验证的损失。LASSO 筛选的基因定义为:二项式误差最小值时对应的基因数目。SVM-RFE 算法:使用caret,kernlab,e1071 包,对模型进行内部交叉验证,采用的方法为“svmRadial”,最后筛选的基因为交叉验证误差(RSME)最小值的基因数目。受试者工作特征曲线(ROC)用以评价MSI 特征基因的诊断效能,曲线下面积(AUC)值为MSI 特征基因的评价指标。以抽样的方式计算AUC 值95%可信区间,抽样方法为bootstrap 法。

1.5 肿瘤浸润的免疫细胞评估

CIBERSORT 算法[12]评估GSE39582 测序数据的免疫细胞浸润情况,P<0.05 作为预测准确的筛选标准。评估的免疫细胞主要包含:CD4+T 细胞,CD8+T 细胞,树突状细胞,辅助型T 细胞,M1 巨噬细胞,M2 型巨噬细胞,M0 型巨噬细胞,中性粒细胞,B 细胞,记忆性B 细胞和肥大细胞。本研究使用相关性分析研究MSI 特征基因与肿瘤浸润免疫细胞的关联性,以探索MSI 特征基因对肿瘤免疫微环境的影响。同时,MSI 特征基因与免疫细胞的相关性也进行了分析研究。

1.6 统计学处理

计量资料中,符合正态分布方差齐性的数据以平均数±标准差(±s)的方式来表示,其检验方式为Student't检验或方差分析;不符合正态分布或者方差齐性的数据使用中位数(四分位间距)[M(IQR)],检验方式为非参数检验。计数资料,表达方式为例数(百分数)[n(%)],其检验方式为χ2检验或Fisher 精确概率。特征基因与免疫细胞的相关性分析采用的是Spearman 秩相关分析。本研究中使用的其余R 包有:dplyr,ggplot2,pROC 等等。P<0.05 为差异有统计学意义。

2 结 果

2.1 基线资料特征

GSE39582 数据中共收集536 例CRC 患者,其中MSI-H 患者77 例;MSI-L/MSS 患者459 例。MSI-H 组55 例存活,存活率为71.4%,MSI-L/MSS 组299 例存活,存活率为65.1%,MSI-H 组的存活率高于MSI-L/MSS 组(P=0.001)。在TNM 分期系统中,MSI-H 组的患者均早于MSI-L/MSS 组患者(T 分期:P=0.036;N 分期:P=0.007;M 分期:P=0.02)。患者年龄,性别和生存时间在MSI-H 组和MSI-L/MSS 组的差异无统计学意义(均P>0.05)。

TCGA-COAD 数据中共收集389 例CRC 患者,其中MSI-H 患者67 例;MSI-L/MSS 患者322 例。MSI-H 组57 例存活,存活率为85.1%,MSI-L/MSS 组258 例存活,存活率为80.1%,两组的存活率差异无统计学意义(P=0.442)。在N 分期和M 分期中,MSI-H 组的患者早于MSI-L/MSS 组患者(N 分期:P<0.001;M 分期:P=0.014)。T 分期,患者年龄,性别和生存时间在两组中的差异无统计学意义(均P>0.05)(表1)。

表1 TCGA和GEO数据集的基线资料特征(续)Table 1 Baseline features of CRC patients in TCGA and GEO datasets (continued)

表1 TCGA和GEO数据集的基线资料特征Table 1 Baseline features of CRC patients in TCGA and GEO datasets

2.2 差异基因分析

为了全面筛选MSI 特征基因,本研究首先按照预先设置的分组情况,使用LIMMA 包对每个测序基因进行筛选。在GSE39582 数据中,差异基因分析结果如图1 所示:MSI-H 组17 个基因上调(红色点),17 个基因下调(绿色点),差异具有统计学意义。

图1 MSI差异性基因的火山图Figure 1 Volcano diagram of differentially expressed genes of MSI

2.3 LASSO回归和SVM筛选MSI特征基因

为了进一步筛选相关基因,使用两种机器学习的方式对差异基因进行探究。在LASSO 回归中,21 个差异基因在模型中被保留下来(图2A)。在SVM-RFE 分析中,6 个差异基因被确定(图2B)。两种机器算法确定的基因在取交集后,最后得到6 个MSI 特征基因:EIF5A、CXCL13、HNRNPL、HOXC、RPL22L1、Y16709。

图2 LASSO 回归和SVM-RFE 筛选特征基因 A:LASSO 回归筛选特征基因的过程;B:SVM-RFE 中误差与变量数目的关系Figure 2 MSI-related genes identified by LASSO regression and SVM-RFE methods A: Selection of MSI-related genes by LASSO regression; B: The relationship between error and number of genes in SVM-RFE

ROC 曲线验证MSI 特征基因的诊断效能,结果详见表2。在训练集(GSE39582)中,6 个基因的AUC 值都在0.75 以上,其中EIF5A,HNRNPL和Y16709的AUC 值达0.95 以上。在验证集(TCGACOAD) 中,EIF5A的诊断效能最高(AUC=0.805)而Y16709基因在TCGA 数据未发现。因此,本研究最终将EIF5A作为MSI 的特征基因。

表2 不同基因对CRC MSI状态的诊断效能Table 2 Diagnostic efficacy of different genes for MSI status in colorectal cancer

2.4 EIF5A基因与肿瘤浸润免疫细胞的关系

CIBERSORT 算法解析GSE39582 的肿瘤免疫细胞浸润情况。在计算每种免疫细胞的评分之后,我们分析MSI 特征基因EIF5A与免疫细胞的相关性。图3 显示:CD8+T 细胞,活化的树突状细胞,辅助性T 细胞,M1 型巨噬细胞,γδT 细胞,中性粒细胞与EIF5A 成正相关(均P<0.05);CD4+记忆性T 细胞,M2 型巨噬细胞,静止树突状细胞,嗜酸性粒细胞,调节性T 细胞(Treg)与EIF5A呈负相关(均P<0.05)。

图3 EIF5A基因与肿瘤浸润免疫细胞的关系Figure 3 The correlation between EIF5A and tumorinfiltrating immune cells

3 讨 论

MSI 已经成为CRC 诊断、治疗以及预后评价的最重要的临床特征之一。在肿瘤发生的研究领域中, MSI 途径(约占15%) 和染色体不稳定(chromosomal instability,CIN)(约占75%) 途径成为散发性CRC 发生的两大重要通路。尤其是Lynch综合征患者,几乎所有的患者都是经过MSI 途径发生的[13]。与CIN CRC 特征不同的是,MSI CRC 主要发生在右半结肠,往往以黏液性和低分化腺癌为主的组织学类型出现。然而,MSI 相关基因的研究仅限于微卫星位点和错配修复基因的改变。因此,本研究基于两种机器学习的算法和肿瘤免疫细胞浸润分析,最终在两个数据库中验证EIF5A可能是MSI 的特征基因。

MSI-H 在肿瘤病理诊断、肿瘤治疗和患者预后与MSI-L/MSS 具有很大的差异,是现在CRC 研究的热点之一。在肿瘤治疗中,Ⅱ期MSI-H 的CRC 患者不适用5-氟尿嘧啶为主的化疗方案,而MSI-H 的CRC 患者对伊立替康等的化疗药物较为敏感[14]。在局部进展期低位直肠癌中,肠镜初诊活检组织中dMMR 蛋白表型预示较好的新辅助放化疗疗效[15]。在肿瘤预后方面,有文献报道,MSI-H 肿瘤预后优于MSI-L/MSS 肿瘤[16],尤其是在Ⅱ期的CRC 患者中[17]。本研究发现,GSE39582 CRC 数据:MSI-H 的患者预后要优于MSI-L/MSS 患者。然而在TCGA 的CRC 患者数据中,MSI-H 与MSI-L/MSS 患者的生存时间差异无统计学意义。这可能与样品例数和种族有关。

在免疫治疗领域,MSI-H/dMMR 患者已经公认为CRC 免疫治疗的有效人群。MSI-H CRC 患者在接受免疫检查点抑制剂后的客观缓解率为60%,疾病控制率为84%[18]。所有45 例患者的12 个月无疾病进展率为77%,12 个月总体生存率为83%[18]。KEYNOTE-016 研究[19]表明,62% (7/13) MSI-H 的CRC 患者预先接受过免疫检查点抑制剂治疗,并得到了客观缓解。KEYNOTE-164 研究[20]表明,在接受一线治疗后的MSI-H 的CRC 患者再接受帕博利珠单抗治疗后,其客观缓解率为32%(中位随访时间为12.6 个月),1年无进展生存率与总生存率分别为41%和76%。以上结论均一致表明:MSI 成为CRC 免疫治疗尤其是免疫检查点治疗的新型肿瘤标志物,因此,临床上关于MSI 状态的辅助诊断和MSI 影响免疫治疗的机制研究显得十分必要和迫切。

人工智能辅助诊断MSI 方面,主要聚焦于病理切片信息[21],病理多组学数据[22],基因突变数据[23]等。在研究MSI 状态对肿瘤免疫治疗的影响方面,Lin 等[24]发现,与MSS/MSI-L 型相比,MSI-H 具有更多的免疫细胞浸润、更高的免疫相关基因表达和更高的免疫原性。此外,在肿瘤突变负荷(tumor mutation burden,TMB) 方面,与MSS/MSI-L CRC(TMB<8 个突变/106个DNA 碱基)相比,MSIH 具有更高的TMB (>12 个突变/106个DNA 碱基)[25]。本研究通过2 个独立的数据集(TCGACOAD,GSE39582)层层筛选验证,使用机器学习的方式,最终确定了EIF5A基因为MSI-H 的特征基因。在肿瘤免疫细胞浸润结果中,我们发现EIF5A基因表达水平与活化的树突状细胞,辅助性T 细胞和M1 巨噬细胞有关,这与MSI-H CRC 拥有更高的活化淋巴细胞结果一致。EIF5A是一个翻译起始因子,受羟腐胺赖氨酸作用调节。最新的研究数据表明,羟腐胺赖氨酸化的EIF5A能够调节如自噬[26]、衰老、多胺稳态[27]、能量代谢[28]等一系列关键的细胞进程,并在癌症[29]中起重要作用。Coni等[30]发现:羟腐胺赖氨酸化的EIF5A可通过直接调节特定暂停状态下的Myc 生物合成来促进CRC 细胞的生长;而抑制EIF5A的羟腐胺赖氨酸化作用,可以抑制CRC 细胞的生长。在具有家族性遗传性息肉病的小鼠模型中,阻断EIF5A羟腐胺赖氨酸化后腺瘤的抑制效果更佳明显。此外,文献[31]报道,聚腺苷二磷酸核糖水解酶(PARG)分子可以促进Myc-MMR 轴,从而促进肿瘤的进展,同时也可以作为肿瘤免疫治疗的生物学标志物。虽然EIF5A与MSI 患者的关系,以及EIF5A与免疫细胞浸润的关系尚未报道。本研究提出猜想,EIF5A可能通过促进Myc 的表达和延伸,从而促进dMMR 的发生。靶向抑制EIF5A(阻断其羟腐胺赖氨酸化作用),不仅可以作为CRC 的潜在治疗方式,而且EIF5A的羟腐胺赖氨酸化有望成为MSI 诊断和免疫检查点治疗的生物学标志物。

本研究仍然存在以下几点不足:首先,训练集和验证集来自美国和法国人群,其验证存在种族差异,而且还缺乏国内多中心的测序的验证结果。其次,关于EIF5A羟腐胺赖氨酸化-Myc-MMR 轴没有进行细胞验证,后续需要在基础实验中得以验证。

本研究基于CRC 多个测序数据,首次发掘出MSI 的特征基因EIF5A,并发现其对MSI 的诊断具有较高的准确度和效能,该基因有望成为MSI 领域新的研究分子,为以后相关的功能机制研究提供线索和依据。

利益冲突:所有作者均声明不存在利益冲突。

猜你喜欢

微卫星免疫治疗测序
自身免疫性脑炎免疫治疗进展
两种高通量测序平台应用于不同SARS-CoV-2变异株的对比研究
绿鳍马面鲀全基因组微卫星分布特征
基于转录组西施舌微卫星标记开发及隐种鉴定
花斑无须鲶(Ageneiosus marmoratus)全基因组微卫星分布特征研究
生物测序走在前
外显子组测序助力产前诊断胎儿骨骼发育不良
肝细胞癌临床免疫学与免疫治疗的研究进展及挑战
肿瘤免疫治疗发现新潜在靶点
免疫治疗:无效必改,效不更方