APP下载

基于X线及超声乳腺影像报告和数据系统构建机器学习模型预测乳腺癌分子分型

2021-01-18马梦伟秦耿耿徐维敏刘仁懿文婵娟陈卫国

中国医学影像技术 2020年12期
关键词:毛刺分型肿块

马梦伟,秦耿耿,徐维敏,刘仁懿,文婵娟,曾 辉,陈卫国

(南方医科大学南方医院放射科,广东 广州 510515)

近年来乳腺癌发病率呈上升趋势[1],而不同分子分型乳腺癌治疗方式与预后截然不同。目前主要依靠术后免疫组织化学检查判断乳腺癌分子分型。如能于术前准确、无创获取分子分型,将对临床诊断及治疗产生重要影响。随着医学数据激增及计算机性能提升,相关机器学习方法进步很快[2-3]。本研究观察基于第5版乳腺影像报告和数据系统(breast imaging reporting and data system, BI-RADS)[4]根据乳腺X线、超声征象及临床资料构建的机器学习模型预测乳腺癌分子分型的价值。

1 资料与方法

1.1 研究对象 回顾性分析2012年1月—2018年12月200例南方医科大学南方医院经病理证实的女性浸润性乳腺癌患者,年龄22~76岁,平均(41.5±12.2)岁。纳入标准:①单发乳腺病变;②术前接受乳腺X线及超声检查,图像质量符合诊断要求;③临床资料完整。排除标准:①图像质量不能满足诊断要求;②术前资料不完整;③检查前接受乳腺手术、新辅助化学或放射治疗等。根据雌激素受体(estrogen receptor, ER)、孕激素受体(progesterone receptor, PR)、人表皮生长因子受体2(human epidermal growth factor receptor 2, HER2)和增殖细胞核抗原Ki-67检查结果,将患者分为2组[5]:①Luminal组109例,包括Luminal A型[ER(+)和(或)PR(+),HER2(-),Ki-67<14%]和Luminal B型{[ER(+)和(或)PR(+),HER2(-),Ki-67≥14%]或[ER(+)和(或)PR(+),HER2(+)]};②非Luminal组91例,包括HER2过表达型[ER(-),PR(-),HER2(+)]和三阴性[ER、PR及HER2均(-)]。组内按7∶3比例随机分为训练亚组及测试亚组:Luminal组训练亚组76例、测试亚组33例;非Luminal组分别为64例和27例。

1.2 仪器与方法 采用Siemens Mammomat Novation及Hologic Selenia Dimensions全数字化乳腺X线机,扫描参数:管电压27~32 kV,管电流28~68 mAs。嘱患者站立,行常规乳腺头足位及内外侧斜位摄影,如观察不满意,则增加侧位或乳沟位等其他方向摄影;不能明确诊断时,行局部加压摄影及点压放大摄影。采用Philips IU 22彩色多普勒超声诊断仪,实时线阵高频探头,探头频率7.5~10 MHz。嘱患者仰卧,双臂上举,充分暴露胸部,以乳头为中心扫查乳房各象限及腋窝淋巴结,观察病灶边界、内部回声及血流等。

1.3 数据采集 采集11个临床信息,包括年龄、部位、初潮年龄、家族史、生育史、哺乳史、流产史、乳头改变、皮肤改变、急性乳腺炎史及绝经史。应用乳腺影像诊断专用工作站,由3名具有10年以上工作经验的影像科医师参照BI-RADS诊断标准[4]分析图像,提取病变X线及超声特征,意见不一时经协商达成共识,共提取24个特征,见表1。

1.4 建立机器学习模型 对11个临床信息及24个影像学特征进行归一化处理,采用Python语言处理连续变量,以One-Hot编码处理分类变量。采用十折交叉验证分别训练以随机森林(random forest, RF)、极端梯度提升(extreme gradient boosting, XGBoost)、逻辑回归(logistics regression, LR)及支持向量机(support vector machine, SVC)为分类器的机器学习模型,利用测试组数据对模型进行外部测试。为避免模型过拟合,选取测试组与训练组交叉验证平均准确度差异最小的模型进行分析。构建模型过程中加入局部可解释性技术SHAP值,以实现对最优模型的可解释性。

1.5 统计学分析 采用SPSS 20.0统计分析软件。计数资料以频数表示,采用χ2检验或Fisher精确概率法;计量资料以±s表示,采用独立样本t检验。以组内相关系数(intra-class correlation coefficient, ICC)分析提取特征的一致性,ICC≤0.40为一致性较差;0.40

表1 提取乳腺癌X线及超声特征

2 结果

2.1 一般资料 2组一般资料中,仅乳腺癌发病部位差异具有统计学意义(P<0.05),其他差异均无统计学意义(P均>0.05),见表2。

2.2 特征提取一致性分析 3名医生提取影像学特征(图1、2)的一致性较好,ICC=0.74[95%CI(0.68,0.79),P<0.01]。

2.3 不同模型预测乳腺癌分子分型的价值 训练组中RF模型预测Luminal型与非Luminal型乳腺癌的特异度及准确率优于其他3种模型,但敏感度略低于SVC和LR模型,见表3。测试组中RF模型的特异度、准确率及阳性预测值优于其他3种模型,但敏感度、阴性预测值略低于LR模型,见表4。测试组RF模型预测乳腺癌分子分型的AUC为0.70,略高于其他3种模型,但与XGBoost、LR、SVC模型差异均无统计学意义(P均>0.05),见表5及图3。采用SHAP值进一步分析RF的最优特征集,X线表现中,肿块边缘毛刺、边缘模糊、肿块最大径、微钙化细线样或线样分支状、段样或线样分布,以及超声表现中的肿块方向对该模型预测效能的影响较大,见图4。

3 讨论

分子水平上,乳腺癌具有高度异质性,最常见分子分型为Luminal型,约占70%以上[6],该型乳腺癌患者预后生存率明显高于非Luminal型[7]。

表2 2组乳腺癌患者一般资料

图1 患者女,73岁,左乳Luminal型乳腺癌 左侧乳腺内外侧斜位X线片(A)示不规则高密度影,边缘呈毛刺状,其内未见钙化;左侧乳腺超声声像图(B)示不规则实性低回声团,边缘似毛刺,稍纵向生长,病灶内可见细点状强回声,CDFI(C)于病灶内部见少许彩色血流信号 (箭示病灶)

图2 患者女,51岁,左乳非Luminal型乳腺癌 左侧乳腺内外侧斜位X线片(A)示大量微钙化,多为细线样及线样分支状,呈段样分布;左侧乳腺超声声像图(B)可见不规则实性低回声团,边缘部分成角,病灶内见强回声团,CDFI于病灶内部及边缘未见彩色血流信号 (箭示病灶)

表3 4种模型对训练组乳腺癌分子类型的预测效能(n=140,%)

RF是采用随机方式建立并可解释的分类器模型,可用于处理高维度数据集,泛化能力及抗干扰能力较强[8]。本研究发现,以RF、XGBoost、LR及SVC为分类器建立的预测不同分子分型乳腺癌模型中,RF模型的AUC、特异度、准确率、阳性预测值略高于其他3种模型,但AUC差异均无统计学意义,可能与样本量较少有关。

HUANG等[9]发现Luminal型乳腺癌多为毛刺状肿块,三阴性乳腺癌肿块边缘多模糊[10]。本研究通过SHAP值进一步分析RF特征集,得到了与之相符的结果,提示X线征象中的肿块边缘毛刺、边缘模糊、微钙化呈细线样或线样分支状、段样或线样分布、肿块最大径及超声肿块方向对于模型预测效能尤为重要,其中肿块呈毛刺状是乳腺癌最常见的影像学表现之一,也是影响RF模型最重要的特征。本研究以乳腺X线测量肿块最大径为评价指标。LEDDY等[11]认为乳腺X线摄影所测肿块径线略较超声测量值更接近组织学最大径,但尚未见乳腺X线所测肿块最大径与Luminal型乳腺癌间相关性的相关文献报道。YOUK等[12]发现微钙化是早期乳腺癌的重要影像学表现,且与患者预后相关[13]。本研究于乳腺X线片中提取的钙化均为微钙化。LEE等[14]认为HER2型乳腺癌微钙化多呈细线样或线样分支状,且以段样或线样分布为主,而Luminal型多呈细小多形样[15]。郭玉萍等[16]认为超声表现中肿块生长方向与乳腺癌分子分型之间具有相关性,本研究结果与之相符。

图3 测试组4种模型的ROC曲线图

表4 4种模型对测试组乳腺癌分子类型的预测效能(n=60,%)

表5 测试组中4种模型混淆矩阵及AUC

图4 测试组RF模型的SHAP值图

本研究的局限性:样本量偏小,机器学习模型易出现过度拟合,需扩大数据量或加入外部数据集以减少数据对模型准确性的影响。

综上所述,采用基于乳腺BI-RADS提取的乳腺X线及超声特征构建的RF模型预测浸润性乳腺癌分子分型总体效能较好,但其预测准确率有待提高。

猜你喜欢

毛刺分型肿块
电化学去毛刺试验研究
去毛刺机飞锤异常损坏原因与预防措施
新视域下金属切削毛刺控制技术实践运用探究
颈部肿块256例临床诊治分析
阀芯去毛刺工艺研究
乳腺假血管瘤样间质增生1例并文献复习
针刀治疗不同分型腰椎间盘突出症的研究进展
乳房有肿块、隐隐作痛,怎么办
成人型髋关节发育不良的分型与治疗
复杂分型面的分型技巧