利用机器学习进行中晚期食管鳞癌生存期预测研究

2018-09-28宋子珺叶可柯李明峰

中国医学装备 2018年9期

乔良宋子珺叶可柯李明峰

食管癌是中国第4位最常见恶性肿瘤，其5年相对生存率仅为20.9%[1]。根据全球癌症状况最新数据Globocan估计，2012年全球食管癌死亡人数为40.02万人，我国食管癌死亡人数为19.75万人，占全球总数的49.35%，预计2035年发病和死亡人数将分别达到43.4万和40.8万人[2]。我国1996-2013年食管癌患者在不同省市的均次直接医疗费用为6851～57554元，年均增长率为11.89%，对患者家庭造成沉重经济负担[3]。

食管癌的早期介入能够显著改善患者预后，而对晚期患者而言，美国国家综合癌症网(National Comprehensive Cancer Network，NCCN)建议卡氏性能量表(Karnofsky performance scale，KPS)评分≤60%或美国东部肿瘤协作组(Eastern Cooperative Oncology Group，ECOG)评分≥3分的患者放弃积极放化疗，转为姑息治疗和(或)最佳支持治疗(best supportive care，BSC)[4-5]。然而，患者诸如病程长短、肿瘤分期、治疗史、并发症和当前的身体情况等，医生所接触的患者事实上存在巨大的个体差异，使用单一、且偏主观的评估指标在具体临床工作中的指导价值有限。当医生面对患方询问“现在这个情况，还能活多久”之类的问题时，只能靠经验作答，并无指南可依。

机器学习(machine learning)是人工智能技术的分支，能够利用算法和训练数据自我迭代并改进，协助人类处理信息量巨大和复杂的数据，在临床诊断和基础科学研究中广泛运用[6-7]。本研究采集246名患者的基本信息、肿瘤信息、治疗情况、目前身体状况等4个方面22个特征(feature)数据，建立线性回归预测模型，利用机器学习中的梯度下降法迭代参数并测试，预测患者生存期，探索此类机器学习模型在中晚期食管癌生存期预测中的作用。

1 食管癌患者资料收集

收集2012年7月1日至2017年9月30日解放军第455医院消化内科收治的246例III、IV期食管癌患者资料数据，全部出现终点事件(死亡)。所有食管癌患者均得到病理学或细胞学确诊，相关病史资料的收集均经研究对象知情同意后由专业调查员和医生收集，其中22例特征项(X01-X22)资料见表1。

表1 特征项X01-X22病历资料

本研究选取食管癌最常用3种类型化疗药物:铂类、氟尿嘧啶、紫杉醇及其相关衍生物。如患者使用“多西紫杉醇+卡铂”方案化疗3次，后使用“顺铂+替吉奥”方案化疗2次，则统计:①铂化疗积累值=5(卡铂3+顺铂2)；②Fu化疗积累值=2(替吉奥2)；③Tax化疗积累值=3(多西紫杉醇3)。

2 研究方法与模型构建

2.1 研究方法

使用监督学习、线性回归代价函数(cost function)，利用梯度下降法(gradient descending)迭代并测试。在246例患者中随机选择164例(占66.7%)样本作为训练集(training set，x_train)，82例(占33%)作为测试集(test set，x_test)。采用矩阵实验室(matrix laboratory，MATLAB)2016b建立线性回归模型，将表1中的22个特征项(X)，进行特征缩放后加入X0=1构成23×164维矩阵作为输入变量；实际生存期(Y)为期望输出值；设学习速率为α=0.05，初始参数θ为随机设置的23维向量(初始|θ|＜1.2)；迭代次数(iteration)为15000；所用函数为一次线性回归函数(公式1):

梯度下降所用偏分导数(partial derivative(公式3):

训练后得到最终参数θ_final，同x_test代入原线性回归方程，输出即得到测试集患者的预测生存期(P)(公式4):

P=101f(x)(P，单位:月)，见表2。

表2 训练后所得最终参数θ_final

2.2 数据统计与模型评价

统计采用SPSS 23.0软件回归分析包，将预测生存期(P)同实际生存期(Y)进行统计学对比，采用线性拟合度评价其相关性，采用残差分析评价预测模型优度。

图1 回归模型残差分析结果示图

3 结果

(1)线性拟合度。经测试，预测生存期(P)同实际生存期(Y)线性拟合度r=0.890，r2=0.791，见表3。

表3 线性拟合度模型

(2)方差分析。预测值平均数=16.2317，残差标准差=4.7337，其结果具有统计学意义(F=303.219，P＜0.001)，见表4、表5。

表4 方差分析

表5 残差统计

(3)模型输出预测生存期(P)同实际生存期(Y)呈强线性正相关，可解释实际生存期79.1%的变异，回归标准化残差符合正态分布(如图1所示)。

4 结论

本研究中，22个特征项(X)的设计有二分类项(即是或否)和数值项，选择包括患者基本信息(性别、年龄、身高、体重和吸烟史)、肿瘤信息(病程、分期、远处转移和并发症)、治疗情况(放化疗累积剂量、手术史)以及目前身体状况(PS评分、贫血程度和白蛋白)等4个方面。酒精和烟草滥用是食管鳞状细胞癌的高危因素[8]。然而，因酒种类繁多、酒精摄入难以量化，数据真实性差，故仅使用吸烟纳入特征项。全球食管癌协作组织(Worldwide Esophageal Cancer Collaboration，WECC)统计4627例接受原发性食管切除术患者，无论术前或术后是否接受其他治疗，患者的生存率随着肿瘤侵袭深度(T)，局部淋巴结转移(N)和远处转移(M)的增加而下降[9]。特征项选择亦包含传统TNM分期，但将远处转移(M)中的骨、脑及腹腔转移分别单独列为特征项(X10、X11、X12)和肺累及(X14)均为二分类项，其相对应的参数(θ10=-0.154，θ11=-0.205，θ12=-0.007，θ12=-0.527)的权重不同有一定参考价值，提示不同部位的转移灶对生存期的影响可能存在较大差异。辅助进食设备和措施(鼻饲管、支架、胃肠造瘘)的使用对延长患者生存期、改善患者生存质量有帮助[10-11]但亦提示该患者预后欠佳(θ16＜0)。此外，吸烟史θ07=-0.005权重极小，而常数项θ0=1.0749、病程θ1=1.0121、白蛋白θ22=1.3457对应的权重值较大，是由于其特征项属于数值项，权重值的大小同特征缩放规则直接相关，单纯对比无意义。

本研究中所选用特征项，涵盖了大部分临床医师同患者的初步接触过程中，所能够第一时间采集到的病史信息；且均设置了采集时间，即该患者处于该时间点时的状态。研究过程和最终预测算法的实现，一定程度上模拟了医师根据患者信息结合自身经验做出生存期预测的过程。在临床工作中，医师很难同时对多名患者进行数十个临床指标的监控，但计算机可以做到。本研究所用机器学习模型，对临床医师在中晚期食管鳞癌患者生存期预测方面，有极佳的参考价值。可靠、确切的生存期限，相较于生存概率数字，能帮助医师更直观地向患方阐述病情、把握患者进入姑息治疗的时间，避免过度治疗及医疗资源的浪费。

依赖于计算机强大的储存、运算能力及海量的训练数据，机器学习技术在医学领域中的作用逐渐得到重视。该技术的基本原理是从训练集中学习获得数据间的相互关系，后将其用于对新数据的分析，并输出结果。运用梯度下降算法的线性回归模型是其基础算法的一种，与传统统计学中线性回归的不同在于，其能够根据新加入的训练数据，自行修改权重参数并重新拟合。机器学习等人工智能模型的预测效果同模型的算法及训练数据量相关，而在训练数据量足够大时，算法本身的优劣差异会变得极小[12-13]。后续的研究中，可收集更多数据用于训练；加入多次项参数，改良算法，以期更佳的预测效果。并尝试修改部分特征项，可向其他病种推广。