基于低剂量胸部CT深度学习模型自动测量骨密度研究

2024-03-01赵宇张晓岚郑超王敏红洪薇周运锋

放射学实践 2024年2期

赵宇,张晓岚,郑超,王敏红,洪薇,周运锋

骨质疏松(osteoporosis,OP)是中老年人最常见的骨骼疾病,表现为骨量减少,易引发脆性骨折[1]。随着我国人口老龄化进程加快,具有高致残率、高致死率的脆性骨折发病率升高,带来了不可忽视的社会和医疗负担,因此早期诊断OP至关重要[2]。双能X线吸收检测仪(dual energy X-ray absorptiometry,DXA)和定量CT(quantitative computed tomography,QCT)是目前最常用的骨矿物质密度(bone mineral density,BMD)测量方法,但两者均对软硬件有一定要求,且需额外的辐射和费用[3]。健康体检或针对其他适应证进行的低剂量胸部CT(LDCT)可用于评估体积骨矿物质密度(volume bone mineral density,vBMD),近期研究证明了LDCT联合QCT椎体骨密度测量在骨质疏松筛查中的作用[4,5]。但LDCT结合QCT测量骨密度需要医生在工作站上勾画兴趣区(region of interest,ROI),是一项费时、费力的工作。近年来,人工智能在医学图像领域的发展为BMD的测量提供了新的机遇,既往研究显示深度学习模型可从腹部平扫CT中预测腰椎vBMD,与DXA测量结果具有较好的一致性[6]。本研究笔者通过构建以3D-ResUNet和Attention-UNet为基础的深度学习模型,从LDCT中预测椎体vBMD,并评估该模型诊断骨质疏松的性能。

材料与方法

1.病例资料

回顾性分析2018年6月-2019年12月弋矶山医院符合以下标准的体检人群的LDCT资料。纳入标准:①年龄≥40岁;②同时行LDCT联合QCT椎体vBMD测量[7]。排除标准:①图像质量不佳;②近期注射静脉对比剂;③脊柱手术史、测量区有严重的骨折、脊柱畸形或植入物;④合并任何可能影响脊柱的疾病如脊柱肿瘤及其他代谢性骨疾病等。⑤QCT报告中vBMD L1/L2椎体测量值的比值超过3个标准差(SD)。根据身高、体重计算其BMI指数(BMI=体重/身高2)。最终1406例患者纳入研究,男889例,女517例,年龄40～94 (57±10)岁。1406例患者采用随机数表法按7:3的比例分配至训练集(train set)及测试集(test set),分别为985例、421例。

2.数据采集

本研究采用GE公司Optima CT540机型,扫描范围包括肺尖到L2椎体。扫描参数:管电压120 kV,采用自动毫安技术,螺距1.75:1,扫描视野(scanning field of view,SFOV)500 mm,床高135 mm;重建方式:矩阵512×512,算法:LUNG,层厚1.25 mm、层间距1.25 mm。因本研究的目的是在LDCT中机会性筛查骨质疏松状态,故未使用骨矿物质等效体模扫描。

3.QCT测量骨密度

LDCT数据传输至QCT工作站(美国Mindways QCT PRO工作站)进行异步分析处理。所有分析均由经过培训并具有使用QCT软件经验的放射科医师进行。操作者选取每个椎体中间层面(采集T12～L2范围中的两个完整椎体,一般是L1～L2椎体)进行分析测量,取两者平均值作为测量结果vBMDQCT[7]。

4.数据处理与模型训练

图像分割:使用ITK-SNAP软件(版本3.8.0,http://www.itksnap.org/)对训练集数据进行图像分割。由1名具有5年经验的放射科医师在不知患者临床信息的前提下逐层勾画胸部的椎骨、锁骨、肩胛骨和肋骨的骨轮廓得到感兴趣区(region of interest,ROI)。

模型训练:本研究中构建的模型由数坤网络科技股份有限公司搭建平台并训练,模型基于深度卷积神经网络(deep convolutional neural networks,DCNN)开发,训练过程分为4步(图1),最终得到训练好的骨密度检测模型。第一步,训练骨分割模型,以UNet作为基本骨架,骨分割网络在每个卷积层之前加入了残差结构,构建了3D-ResUNet。模型的输入为LDCT检查的3D数据及人工标注的骨轮廓,输出为胸部的椎骨、锁骨、肩胛骨和肋骨分割结果。第二步,加入椎骨关键点Attention-UNet模型。在UNet的输出层之前加入了注意力机制,使得网络能够对椎骨骨节的关键点进行定位,输出T12、L1、L2椎体的位置。基于上述关键点选取腰大肌,基于CT值选取前腹壁皮下脂肪ROI。第三步,去皮质骨处理。基于获取到的椎骨关建点,分割出对应的椎体子区域并判定其扫描完整性,通过一个半径为4个体素的球体对椎体掩模(mask)做侵蚀处理,去除椎骨的皮质骨,仅对椎体内的松质骨进行分析。第四步,基于骨密度与CT值的线性关系,使用脂肪、肌肉作为内部校正参数构建如下函数计算椎体骨密度预测结果vBMDAI。

图1 基于深度卷积神经网络构建骨密度自动测量模型。

vBMDAI是预测的骨密度值,MUSCLEd、FATd分别是肌肉、脂肪密度值,SPINEct、MUSCLEct、FATct分别是测量得到的椎体、肌肉和脂肪的CT值。

5.统计学分析

使用SPSS 26.0版本软件进行数据统计。检验水准:P<0.05有统计学意义。

深度学习模型与QCT测量的一致性验证:应用Spearman相关系数分别在训练集和测试集中检验AI模型输出的骨密度值vBMDAI和QCT测量的骨密度值vBMDQCT的相关性。应用组内相关系数(interclass correlation coefficient,ICC)和Bland-Altman法验证两种方法的一致性。应用ROC曲线并计算曲线下面积(area under the curve,AUC)对AI模型诊断OP效能进行评估。

OP的诊断参照《中国定量CT(QCT)骨质疏松症诊断指南2018版》[8],以vBMD<80 mg/cm3作为骨质疏松症的阳性判定标准。

结果

1.一般资料

训练集与测试集中患者间年龄、性别、身高、体重、BMI、QCT测量的骨密度值vBMDQCT差异均无统计学意义(P值均>0.05,表1)。

表1 训练集和测试集中患者间临床资料比较

2.骨密度测量

Spearman相关系数显示(图2、3)训练集中AI模型输出的骨密度值与QCT测量的骨密度值呈正相关(r=0.957,P<0.001),在测试集中AI模型输出的骨密度值与QCT测量的骨密度值呈正相关(r=0.955,P<0.001)。在训练集中组内相关系数(95%置信区间)为0.946(0.940～0.952),在测试集中为0.945(0.934～0.954)。Bland-Altman法分析显示(图4、5)训练集中AI模型与QCT测量的方法差值(95%一致性界限)为-1.425(-21.90～19.05) mg/cm3,0.052%(51/421)的点在95% LoA之外;测试集中差值为-1.23(-21.51～19.05) mg/cm3,0.057%(24/421)的点在95% LoA之外。两种方法一致性较好。训练集中ROC曲线结果显示AI模型输出的骨密度值诊断骨质疏松的AUC为0.986(95%CI:0.979～0.993),测试集中AUC为0.975(95%CI:0.953～0.997)。灵敏度为42.1%(16/38),特异度为100%(383/383),准确度为94.8%(399/421),阳性预测值为100%(16/16),阴性预测值为94.6%(383/405)(图6、7)。

图2 训练集(n=985),模型与QCT骨密度测量值呈正相关(r=0.957,P<0.001)。图3 测试集(n=421),模型与QCT骨密度测量值呈正相关(r=0.955,P<0.001)。图4 Bland-Altman分析显示训练集中AI模型测量和QCT测量骨密度差值为-1.43(-21.90～19.05)。图5 Bland-Altman分析显示测试集中AI模型测量和QCT测量骨密度差值为-1.23(-21.51～19.05)。图6 训练集AI模型测量的骨密度值诊断骨质疏松(vBMD<80 mg/cm3)的ROC曲线,曲线下面积AUC为0.986。图7 测试集AI模型测量的骨密度值诊断骨质疏松(vBMD<80 mg/cm3)的ROC曲线,曲线下面积AUC为0.975。

讨论

早期筛查并及时采取防治措施是降低OP骨折发生率的重要策略,但我国现有BMD测量仪的数量远不能满足临床需求,据统计我国50岁以上人群中接受过BMD检测的比例仅为3.7%[9]。低剂量胸部CT体检和新冠肺炎筛查产生了大量CT数据[10]。

本研究通过构建了一套基于DCNN开发的全自动骨密度检测模型,利用LDCT中预测椎体vBMD并与QCT测量结果进行了比较。研究结果显示该模型与QCT测量的骨密度值具有很高的一致性,对OP具有很高的诊断效能。

DXA和QCT是测量骨密度的主要方式。QCT采用专用体模和软件测量松质骨的体积骨密度,不受骨骼体积、形态以及脊柱退行性变的影响,准确性较DXA更高[11]。但QCT需人工勾画ROI,费时费力;操作者间的一致性难以确定,需要更高频的专业质控。通过深度学习模型进行ROI的自动勾画有助于克服人工操作的误差,大大减少人工成本和节约时间成本,测量结果具有可重复性。利用该模型可在患者进行LDCT检查时常规筛查OP,患者无需额外接受辐射和费用。

一些国外研究[6,12]探索了通过CT值估算BMD的可能性,报告的相关系数介于0.399和0.891之间,发现腰椎CT扫描的CT值与DXA或QCT测量结果有较好的相关性。大部分研究仍以腰椎CT为基础[13],基于低剂量胸部CT上进行的研究很少。Kaesmacher等[14]探索了基于校正体模(包括同步和非同步方式)和无体模(基于内部组织校准)的可能,提出了基于内部组织校准的公式。松质骨无明显界限,提取过程无法直接进行标注分割,本研究构建的模型从自动骨分割开始,椎体定位、去皮质骨到内部组织校准,最终实现全自动输出BMD值。在测试集中AI模型诊断OP的灵敏度仅为42.1%(16/38),这与数据组成有关。本研究中纳入的数据来自体检人群,患病比例低,仅有9%(38/421),模型后续仍需在患者中进行优化和调整。结果看ICC和Bland-Altman分析可知AI模型与QCT测量的骨密度结果具有很高的一致性。模型的阳性预测值、阴性预测值和准确性都很高,可满足在健康体检中增加OP机会性筛查的需求。

笔者对测试集中表现较差的数据进行分析,发现如下3类原因:①脊柱存在轻度骨质增生的患者亦被纳入,在松质骨分割时对增生部分过分割,使测量结果偏大。②患者脊柱旋转或/和曲度较大,影响椎体分割准确性。③受检者过瘦,皮下脂肪偏薄,影响AI对脂肪的提取。既往研究发现低剂量胸部CT联合QCT测量的腹内脂肪面积与血脂生化指标、骨密度均有相关性[15,16],不除外多或极少的腹内脂肪面积对骨密度测量产生影响。

本研究存在以下局限性:①为回顾性单中心研究,且数据来自健康体检人群,无法代表全部人群,尤其是存在骨质疏松风险的人群。下一步需多中心大样本数据进一步验证AI模型与QCT测量值的一致性和对OP的诊断效能。②AI模型尚不能预测一些极端情况,例如椎体形态变异、腰椎严重退行性病变、皮下脂肪薄等。③本研究以QCT测量结果作为参考标准,可能存在误差,需要进一步核查QCT勾画的ROI和体模校正情况。今后的研究中利用深度学习模型有望辅助定量分析腹内脂肪面积等更多指标,挖掘更多影像、临床信息之间的相关性,提高预测效能。

综上所述,本研究通过基于DCNN的方法构建了LDCT的骨密度自动测量模型,它不需要额外的设备、特殊的体模和复杂的质控流程,无需依赖影像医生的经验,此外,可以回顾性地获取vBMD数据。因此,该方法可用于扩大骨质疏松症的人群筛查,特别是在双能X线吸收法(DXA)受限的国家或地区,对增加普通人群的机会性筛查具有重要的意义。

利益冲突: 所有作者没有任何利益冲突,未接受任何不当的职务或财务利益。