APP下载

钆塞酸二钠增强MRI肝胆期影像组学对乙肝患者肝储备功能的评估价值

2024-01-25胡景卉王芳侯承师黄京城杨鑫王文剑陈磊叶靖孙骏罗先富

放射学实践 2024年1期
关键词:训练组肝胆组学

胡景卉,王芳,侯承师,黄京城,杨鑫,王文剑,陈磊,叶靖,孙骏,罗先富

慢性乙肝是亚洲地区导致肝硬化的最常见原因,在早期阶段,临床表现常常较为隐蔽,当症状出现时,往往伴有严重的并发症。全球每年约有200万人死于肝病,其中超过100万人死于肝硬化并发症[1]。随着肝炎的进展,肝细胞出现变性和坏死、纤维结缔组织增生和假小叶再生,导致正常肝细胞数量减少,影响肝脏的合成、分泌及代谢功能,从而导致肝储备功能的下降,临床上表现为总胆红素和转氨酶的升高、凝血障碍、脾肿大等。对慢性肝病患者进行早期的评估、管理和治疗至关重要。

目前,临床上主要通过血液生化指标来评估肝储备功能,但这些指标不仅不能显示肝脏的解剖结构或提供血液灌注信息,并且容易受急性感染等因素的影响。由于肉眼可见的结构变化往往在慢性疾病的发生过程中出现较晚,其他影像学检查如超声、CT和常规MRI对于早期慢性肝病的检测能力有限[2]。钆塞酸二钠(gadolinium-ethoxybenzyl-diethylenetriamine-pentaacetic acid,Gd-EOB-DTPA) 作为一种肝细胞特异性对比剂,可在肝胆期被正常肝细胞通过肝细胞膜表面的有机阴离子转运系统阴离子转运多肽(organic anion transporting polypeptide,OATP)特异性摄取,并且肝胆期图像的多个测量参数已被证实可以用来评估肝功能,如肝实质相对强化程度、肝胆期的肝门静脉比等[3-5]。然而,通过信号强度测量计算得出的参数来评估肝功能是有限的,因为它们仅仅通过勾画肝脏某几个层面的局部感兴趣区,这种方法并不能评估完整的肝实质储备功能。

影像组学是近几年新兴的影像研究领域,它可以通过勾画整个病变区域的体积,再通过机器学习分析大量的高维数据,提取出重要特征并定量表示,从而提高预测、诊断和预后的准确性[6],这对于早期评估肝功能具有重要价值。周玮等[7]仅从肝胆期影像组学方面评估了Child-Pugh A与B/C级肝硬化患者的肝储备功能,未联合临床进行分析是否临床已经具有较高的评估价值。张智星等[8]采用了3期增强CT图像对Child-Pugh进行分级评估。本研究旨在探讨是否能够单独基于Gd-EOB-DTPA增强MRI肝胆期图像来建立临床-影像组学联合模型,对慢性乙肝患者肝功能进行更好的分级评估。

材料与方法

1.病例资料

回顾性搜集2018年12月至2021年7月就诊于苏北人民医院行Gd-EOB-DTPA增强MRI检查的1205例存在慢性乙型肝炎感染的患者。病例纳入标准:①实验室证据表明存在乙型肝炎病毒感染;②具有完整的临床数据资料,包括是否有腹水、肝性脑病、机体白蛋白水平以及MRI检查前后1周内的总胆红素(total bilirubin,TBIL)、丙氨酸氨基转移酶(alanine amiotransferase,ALT)、天冬氨酸氨基转移酶(aspartate transaminase,AST)、血小板(platelet,PLT)、凝血酶原时间(prothrombin time,PT)、凝血酶原时间国际化比值(international normalized ratio,INR);③肾功能正常。病例排除标准:①肝脏存在较大的病灶(最大直径>5 cm)或多个病灶(数量>5),导致正常肝实质范围较小影响测量准确性;②有肝介入治疗史或肝切除手术史;③门静脉存在栓子,影响血流动力学者[9];④合并有其他肝炎病毒感染;⑤肝胆期图像质量不佳。根据收集的临床及实验室指标评估出Child-Pugh分级,包括总胆红素、白蛋白水平、凝血酶原延长时间、腹水量级以及是否有肝性脑病[10]。采用相同的纳入和排除标准,从2022年7月至12月就诊的慢性乙型肝炎感染患者中筛选病例。本研究为回顾性临床研究,经苏北人民医院伦理委员会批准(批准文号:2021ky219),免除受试者知情同意。

2.MRI检查方法

MRI检查均采用3.0T MRI扫描仪(GE Discovery 750,750W,美国),8通道体部相控阵线圈。扫描前嘱患者禁食6~8 h,采用呼吸门控技术,对患者进行平静呼吸及屏气训练,扫描范围从膈顶至双肾下缘。所有患者均进行MRI平扫及钆塞酸二钠增强扫描。T1WI平扫及增强采用肝脏容积加速采集(liver acquisition with volume acceleration,LAVA)序列,分别于注射对比剂后20 s(动脉期)、60 s(门静脉期)、3 min(移行期)及20 min(肝胆特异期)进行扫描得到4期图像。LAVA序列扫描参数:重复时间3.7 ms,回波时间1.7 ms,层厚5.0 mm,层间距2.5 mm,矩阵320×224,视野40 cm×40 cm,翻转角18°。对比剂采用钆塞酸二钠(Gd-EOB-DTPA,Primovist,德国拜耳医药保健有限公司),注射流率2.0 mL/s(剂量0.025 mmol/kg),注射对比剂后再以相同流率注射20 mL 0.9%氯化钠溶液进行冲洗。

3.研究方法

临床模型构建:将临床变量(包括年龄、性别、身体质量指数、TBIL、ALT、AST、PLT、PT、INR)进行单因素和多因素逻辑回归分析,筛选出与Child-Pugh分级相关的临床变量,即独立危险因素,将其联合构建出临床评估模型。采用受试者工作特征(receiver operating characteristic,ROC) 曲线的曲线下面积(area under the curve,AUC) 分析模型的评估能力。

肝半自动分割:由一位具有5年工作经验的放射科医师将所有纳入研究患者的肝胆期图像导入“uAI科研平台”(uRP,United Imaging Healthcare Co,中国上海)。一个名为V-Net的器官分割深度学习模型用于自动分割肝脏的感兴趣体积(volume of interest,VOI)[11],再进一步进行手动修正,以排除每个层面上的脂肪、空气、肝脏病变、大血管和胆管区域(图1、2)。慢性肝炎肝功能正常、Child-Pugh A级和Child-Pugh B/C级的患者分别标记为0、1和2。然后,由另一位具有10年工作经验的放射科医生检查核对VOI以及标记的标签。

图1 慢性乙肝肝功能正常者的Gd-EOB-DTPA增强MRI肝胆期图像,Rad-score值为0.565。a) 单个层面原图;b) 该层面勾画示例图。图2 Child-Pugh A级患者的Gd-EOB-DTPA增强MRI肝胆期图像,Rad-score值为0.809。a)单个层面原图,肝包膜稍欠光整;b)该层面勾画示例图。

影像组学特征提取与选择:使用Python 3.7中的Pyradiomics工具箱,从Gd-EOB-DTPA肝脏增强MRI肝胆期图像中提取符合国际生物标记物标准化倡议的2600个肝实质区域的影像特征。这些特征包括了4个特征组:18个一级特征、14个体积和形状特征、72个纹理特征和2496个基于滤波器的特征。采用随机抽样方法将数据集按8:2的比例分成训练组和测试组,另一时间段的数据集构建验证组。为了避免特征之间的维度影响,使用Z分数预处理方法进行特征归一化。应用最小绝对收缩和选择算子(least absolute shrinkage and selection operator,LASSO) 算法进行降维处理,筛选出最相关的系数非0的影像组学特征。将得到的组学特征进行线性组合计算,得出每例患者对应的影像组学得分(Rad-score)。

影像组学模型及临床-组学联合模型构建:AUC用于量化Rad-score的评估能力,在训练组、测试组和验证组中,分别建立Rad-score影像组学评估模型。将临床模型中的独立危险因素和Rad-score联合进行多因素逻辑回归分析,构建出临床-影像组学联合评估模型,用于对慢性肝炎患者进行肝储备功能评估。并根据训练组的约登指数确定临界值,以得到相应的敏感度、特异度、准确度以及阳性预测值、阴性预测值。净重新分类改善指数(net reclassification index,NRI)、综合判别改善指数(integrated discrimination improvement,IDI)用以评价联合模型较其他模型的检出效能改善情况。

列线图的建立和评估:利用训练组建立并绘制整合了临床变量和影像组学Rad-score的组学列线图。绘制列线图的校准曲线,通过Hosmer-Lemeshow检验来评估拟合优度。决策曲线分析(decision curve analysis,DCA)用于评估不同阈值概率下列线图的净收益。

4.统计学分析

采用SPSS 24.0软件和R语言(version 3.3.3,Vienna,Austria)进行统计学分析。根据正态性检验结果,将定量数据以中位数(四分位数间距,不符合正态分布)或平均值±标准差(符合正态分布)表示,定性数据以百分数(%)表示。定量数据采用Mann-WhitneyU检验或Student’st检验进行组间比较,定性数据采用卡方检验进行组间比较。以P<0.05为差异有统计学意义。

结 果

1.病例资料

1205例慢性乙肝患者经纳入、排除标准,排除临床数据资料不完整者42例,肝脏存在较大病灶(最大直径>5 cm)者287例,多个病灶(数量>5)者336例,有肝脏介入治疗史或肝切除手术史者114例,门静脉存在栓子者56例,合并丙肝者55例,戊肝者17例,肝胆期图像质量不佳者19例。最终279例患者纳入本研究,其中男171例,女108例,年龄中位数为60岁,按照临床Child-Pugh分级标准将279例患者分为73例慢性乙型肝炎肝功能正常者、136例Child-Pugh A级患者和70例Child-Pugh B/C级患者。肝功能正常和Child-Pugh A级的209例患者被随机分配到训练组(n=167)和测试组(n=42)中,Child-Pugh A和Child-Pugh B/C级的206例被随机分配到训练组(n=164)和测试组(n=42)中。患者的临床资料见表1。另一时间段筛选出的64例患者用于验证,包括17例慢性乙肝肝功能正常者、30例Child-Pugh A级和17例Child-Pugh B/C级乙肝患者。

表1 患者基线资料 (n,%)

2.临床模型

单因素及多因素逻辑回归分析结果显示,PLT、TBIL和INR是乙肝Child-Pugh A级的独立危险因素,PLT、TBIL是乙肝Child-Pugh B/C级的独立危险因素(表2、3),分别进行联合,构建出临床评估模型,训练组、测试组和验证组中临床模型鉴别肝功能正常与Child-Pugh A级的AUC分别为0.897、0.884、0.780,训练组、测试组和验证组中临床模型鉴别Child-Pugh A级与Child-Pugh B/C级的AUC分别为0.916、0.893、0.914。

表2 临床参数的单因素和多因素回归分析结果

3.影像组学特征及影像组学模型的评估效能

在训练组中,慢性肝炎肝功能正常者和Child-Pugh A级患者的数量分别为58例和109例。通过LASSO回归分析后,选择出4个相关特征,包括2个灰度依赖性矩阵(gray-level dependence matrix,GLDM)、1个灰度大小区域矩阵(gray-level size zone matrix,GLSZM)和1个灰度行程矩阵(gray-level run length matrix,GLRLM)。所有特征的定量值在两组中均具有统计学差异(P<0.05)。根据以上4个特征及其系数、截距值计算得到影像组学标签Rad-score(图3):

图3 肝功能正常与Child-Pugh A级组采用LASSO算法进行影像组学特征筛选。a)调整参数λ使拟合损失值二项偏差最小,以筛选出最优的影像组学特征;b)筛选出最优影像组学特征的系数收敛图,在最佳λ值处画一条垂直线,得到4个系数非零的特征;c)选定的4个最优特征及其相关系数;d)训练组、测试组和验证组中每例患者的影像组学得分,在鉴别慢性乙肝与Child-Pugh A级患者中差异有统计学意义(P<0.05)。

Rad-score肝功能正常 vs.Child-Pugh A=0.038×normalize_glrlm_ShortRunHighGrayLevelEmphasis+0.026×normalize_gldm_SmallDependenceEmphasis-0.005×log_gldm_log-sigma-1-5mm-3D-LargeDependenceHighGrayLevelEmphasis-0.083×wavelet_glszm_wavelet-HHH-ZoneEntropy+0.651

在训练组、测试组和验证组中,Rad-score鉴别肝功能正常与Child-Pugh A级的AUC分别为0.890、0.914、0.824(表4)。

Child-Pugh A级与Child-Pugh B/C级患者通过LASSO回归分析后,选择出7个相关特征,包括4个一阶特征(first order)、1个灰度共生矩阵(gray-level cooccurrence matrix,GLCM)和2个 GLRLM。所有特征的定量值在两组中均具有统计学差异(P<0.05)。根据以上7个特征及其系数、截距值计算得到影像组学标签Rad-score:

RadscoreChild-Pugh A vs.B/C=0.067×normalize_glrlm_ShortRunHighGrayLevelEmphasis+0.028×wavelet_firstorder_wavelet-LLH-Kurtosis+0.003×normalize_glrlm_RunLengthNonUniformityNormalized-0.006×wavelet_glcm_wavelet-HHH-InverseVariance-0.010×normalize_firstorder_Maximum-0.011×normalize_firstorder_TotalEnergy-0.074×normalize_firstorder_RootMeanSquared+0.340

在训练组、测试组和验证组中,Rad-score鉴别Child-Pugh A级与Child-Pugh B/C级的的AUC分别为0.862、0.865、0.818。

4.临床-影像组学联合模型的评估效能

对于肝功能正常与Child-Pugh A级患者,将PLT、TBIL、INR与Rad-score进行多因素回归分析后,所有参数均纳入临床-影像组学联合模型(表3)。训练组中,联合模型鉴别肝功能正常与Child-Pugh A级的AUC为0.951,较临床模型(NRI=1.022,P<0.001;IDI=0.172,P<0.001)和影像组学模型(NRI=1.217,P<0.001;IDI=0.197,P<0.001),显著提高了评估效能。测试组中,联合模型鉴别肝功能正常与Child-Pugh A级的AUC为0.978,同样显著提高了评估效能(与临床模型比较:NRI=1.452,P<0.001;IDI=0.331,P=0.001。与组学模型比较:NRI=1.644,P<0.001;IDI=0.224,P=0.002)。验证组中,联合模型鉴别肝功能正常与Child-Pugh A级的AUC为0.886,较临床模型(NRI=0.302,P=0.007;IDI=0.170,P=0.002)和组学模型(NRI=0.639,P<0.001;IDI=0.311,P<0.001)也显著提高了评估效能(表4、图4)。

表3 临床和影像组学参数的多因素回归分析结果

表4 肝功能正常与Child-Pugh A级组的临床模型、影像组学模型和临床-组学联合模型评估效能

图4 肝功能正常与Child-Pugh A级组中临床模型、影像组学模型和临床-组学联合模型的ROC曲线。a)训练组;b)测试组;c)验证组。

对于Child-Pugh A与Child-Pugh B/C级患者,将PLT、TBIL与Rad-score进行多因素回归分析后,所有参数均纳入临床-影像组学联合模型(表3)。在训练组、测试组和验证组中,联合模型鉴别Child-Pugh A级与Child-Pugh B/C级的AUC分别为0.940、0.934、0.951,相较于临床模型(AUC=0.916、0.893、0.914)并未有明显提高,差异无统计学意义(Delong检验,P均>0.05)。

5.列线图的建立和评估

对于肝功能正常与Child-Pugh A组,临床-影像组学联合模型的列线图如图5所示,Hosmer-Lemeshow拟合优度检验的P值无统计学意义(训练组P=0.443 ,测试组P=1.000,验证组P=0.343,图6),表明列线图具有良好的校准性能。在DCA中的所有阈值概率下,临床-影像组学联合模型的列线图表现出优于其他模型的临床净收益(图7)。

图5 肝功能正常与Child-Pugh A级组联合模型的列线图。

图6 校准曲线表明肝功能正常与Child-Pugh A级组中训练组、测试组和验证组的列线图校准良好,Hosmer-Lemeshow拟合优度检验的P值均>0.05。a)训练组;b)测试组;c)验证组。图7 决策曲线分析结果表明,与临床模型和影像组学模型相比,肝功能正常与Child-Pugh A级组中训练组、测试组和验证组中联合模型列线图在各概率阈值下均具有更高的临床净效益。a)训练组;b)测试组;c)验证组。

讨 论

本研究从肝脏Gd-EOB-DTPA 增强MRI肝胆期图像中提取出与慢性乙型肝炎肝储备功能最相关的影像组学特征,并通过计算得到每例患者对应的影像组学标签即Rad-score,结果显示影像组学模型具有良好的评估效能。肝功能正常与Child-Pugh A级组在联合了影像组学和临床模型后,联合模型对于评估效能有所提高,优于单纯的临床模型和影像组学模型。但在Child-Pugh A级与Child-Pugh B/C级组中,临床模型已经表现出了较好的评估价值。

经过单因素和多因素回归分析后,肝功能正常与Child-Pugh A级组筛选出了3个临床参数纳入临床模型,分别是TBIL、PLT和INR。Child-Pugh A级与Child-Pugh B/C级组则筛选出TBIL和PLT建立临床模型。TBIL是肝功能中的一个重要指标,肝炎进展过程中,肝功能下降,机体对于胆红素的代谢能力也下降,导致其在血液中积聚、增高。相关研究表明PLT与肝脏的再生功能密切相关,肝功能差的患者往往由于正常肝细胞减少,PLT数量也相应下降,导致脾肿大、脾功能亢进,PLT单因素对于肝功能的预测就具有一定意义[12,13]。同样,肝功能的下降,凝血酶原相对也会缺乏,凝血因子的合成发生障碍,INR也是一种反映肝脏合成能力的重要指标[14,15]。两组的临床模型测试组AUC分别达到了0.884、0.893,验证组为0.780、0.914,具有良好的评估效能。

本研究中肝功能正常与Child-Pugh A级组提取出了4个最相关的肝胆期影像组学纹理特征,包括2个GLDM特征、1个GLRLM特征和1个GLSZM特征。GLSZM纹理特征可以用来描述灰度值的分布,来自于GLSZM类的区域熵特征具有最高的绝对值相关性系数,可以度量灰度不均匀性或随机性,值越高表示肝实质组织的异质性越高[16]。其他包括GLDM纹理特征可以量化肝胆期 MRI图像的灰度依赖性,GLRLM纹理特征则提供了具有相同灰度的连续像素运行的空间分布信息,它们都可以反映出一阶纹理特征无法显示的空间异质性改变[17]。Child-Pugh A级与Child-Pugh B/C级组提取出7个最相关的肝胆期影像组学纹理特征,包括4个一阶特征、1个GLCM和2个GLRLM特征。一阶直方图特征描述了图像区域内体素强度的分布,晚期肝硬化有大小不一的结节和纤维间隔,导致体素强度分布不均;GLCM则可以捕获具有预定义灰度强度的像素对或体素之间的空间关系。病理上,随着肝炎的进展,肝细胞变性坏死导致正常的肝小叶被破坏,假小叶内再生的肝细胞不具备正常肝细胞的功能,从而对于Gd-EOB-DTPA的摄取减少,肝胆期图像信号强度降低,肝脏组织的异质性也随着肝脏硬度的增加而增加,逐渐演变形成肝硬化[18-20]。影像组学在肝胆期图像上进行全肝组织的体积分割,准确捕捉细微的组织变化,提取出高维的成像特征,通过筛选出的这些纹理特征计算得到Rad-score组学模型,也具有较高的评估效能,测试组分别为0.914、0.865,验证组分别为0.824、0.818。在联合了影像组学和临床模型后,诊断效能得到了显著提高,并且在两组的多因素回归分析中,Rad-score都具有最高的权重系数(OR=6.101、2.188),这充分说明了影像组学在肝储备功能评估中的重要作用。肝功能正常与Child-Pugh A级组的联合模型AUC值,训练组为0.951,测试组为0.978,验证组为0.886,并且NRI和IDI表明均改善了模型的评估能力,但对于Child-Pugh A级与Child-Pugh B/C级组,联合模型相对于临床模型并没有明显优势。

既往多项研究表明,影像组学可以更好地评估肝脏功能储备。相关研究表明通过评估术前肝功能,可以预测肝癌患者术后肝功能衰竭[21,22];还可以用来预测、识别慢性肝病患者是否发生晚期肝纤维化以及准确分期患者的显著纤维化(≥F2)水平[23,24]。然而,肝纤维化程度并不能直接反映整体的肝功能。Nitsch等[25]曾利用基于肝脏和脾脏的MRI影像特征开发了一种肝硬化疾病严重程度的预测模型,但它们仅限于临床失代偿的患者。本研究更全面地评估了乙肝患者的肝储备功能,为临床迅速采取干预措施提供了有价值的辅助信息。

本研究存在以下局限性:首先,本研究仅针对乙肝患者,然而在西方国家,丙肝和酒精性脂肪性肝炎也是肝病的常见原因,我们将在未来扩大纳入标准;其次,可能是由于选择偏倚或样本量较小,临床基线资料中肝功能正常与Child-Pugh A级组中的PLT和Child-Pugh A级与Child-Pugh B/C级组中的ALT在训练组和测试组中差异无统计学意义,并且由于Child-Pugh C级的病例数较少而和B级患者一起进行分析,未来将扩大样本量进行更全面研究。

综上所述,Gd-EOB-DTPA增强MRI 肝胆期影像组学模型可以对慢性乙肝患者进行较好的肝功能分级,临床-影像组学联合模型在乙肝患者肝功能损伤早期Child-Pugh A级的检出方面表现出了更好的性能。未来,采用基于影像组学的模型来评估肝功能,可能可以优化对于乙肝患者的管理及早期发现,更好地服务于精准医疗。

猜你喜欢

训练组肝胆组学
新型抗阻力训练模式改善大学生身体素质的实验研究
“中国肝胆外科之父”吴孟超
“中国肝胆外科之父”吴孟超
跑台运动训练对脊髓损伤大鼠肺功能及HMGB-1表达的影响
线上自主训练与线下指导训练表面肌电差异分析
口腔代谢组学研究
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
代谢组学在多囊卵巢综合征中的应用
多处肝切除术在复杂肝胆管结石中的应用分析
敬民深处见肝胆