基于卷积神经网络的自发性脑出血血肿分割方法的一致性评价

2020-08-07常健博姜燊种陈显金骆嘉希李沃霖张庆华魏俊吉石林冯铭王任直

中国现代神经疾病杂志 2020年7期

常健博姜燊种陈显金骆嘉希李沃霖张庆华魏俊吉石林冯铭王任直

自发性脑出血（sICH）是多种病因导致的原发性脑实质出血，我国发病率约为69.6/10 万人年［1］，发病30 天内病死率高达40%（13.1%～61.0%），仅有12%～39%的患者可以实现远期生活自理［2］，给社会和家庭带来了极大的疾病负担。脑出血的诊断与治疗具有一定的复杂性，涉及神经外科、神经内科等多个学科，中国不同地区患者的预后差异较大［3］，导致这种差异的原因复杂多样，但缺少对脑出血精准诊断的便捷技术是其中的重要原因之一。头部CT 检查可以很好地显示出血灶，而准确估算CT 图像中血肿量，是各项研究亟需解决的问题，目前以医师手动分割的血肿结果作为计算血肿量的“金标准”，但这种方法耗时费力；临床上常以多田公式（即长×宽×高/2）作为血肿量的估算方法，但其结果难言精准［4］。随着人工智能（AI）技术的进步，不断有学者尝试自动分割CT 图像中的血肿量，常用方法主要有两类，一类是模糊C-均值（FCM）聚类算法，另一类则是神经网络。其中FCM 法基于CT 图像的灰度值，姜春雨等［5］在既往研究的基础上，对FCM 法分割的精准度进行改进，但迄今尚无大样本研究对其效能进行过验证。基于神经网络的模型也可见诸报道，Cho 等［6］通过深度学习框架，基于3 万帧脑出血的头部CT 平扫图像，构建的算法准确度达80%、回归度为82%。上述研究大多是从人工智能技术的角度进行研究，2016 年Stroke发表了Scherer 等［7］的一种计算方法，即借助体素随机森林法对血肿进行分割，最终在验证集中（30 例）该算法与手动分割的一致性相关系数（CCC）为0.99，虽然优于多田公式的0.82，但手动勾画、多田公式和自动分割三者之间的差异未达到统计学意义。本研究根据脑血肿的CT图像特征，拟提出一种基于深度学习技术的分割方法——卷积神经网络的算法分割（算法分割），并与多田公式、手动分割进行对比，初步探索精准、便捷的脑血肿分割方法的可行性。

资料与方法

一、研究资料

1.资料来源本研究采用的影像学资料均来自中国颅内出血影像数据库（CICHID），该数据库建于2019 年初，由中国医学科学院北京协和医院牵头，依托于中国医师协会智慧医疗分会医疗大数据学组［8］。截至 2019 年 10 月共收入 22 个医疗中心（包括三甲医院19所）近5000例次头部CT扫描资料，包括脑实质出血、脑室出血、硬膜下出血、硬膜外出血、蛛网膜下腔出血，以及颅脑创伤等各种类型的颅内出血，其中以自发性脑实质出血为主；本研究选择自发性脑实质出血的部分数据进行分析。

2.纳入与排除标准（1）纳入自发性脑出血患者（年龄＞18 岁）的头部CT 影像，影像资料均于手术前或未行手术治疗时获得，患者性别、既往史情况等不限。（2）头部CT 影像均为标准的DICOM 格式，不限制扫描时所用的参数及机器品牌。（3）排除蛛网膜下腔出血、硬膜下出血、硬膜外出血的患者。（4）本研究经中国医学科学院北京协和医院伦理审查委员会审核并批准（批准文号：S-K1175）。

3.一般资料根据纳入与排除标准，共选取146 例术前或未行手术治疗的自发性脑出血患者的头部CT 资料，覆盖5 个医疗中心的多种CT 扫描仪和扫描参数，层厚3 ～7 mm。所纳入的病例资料均由计算机自动生成随机数字表，随机分为训练集（90例）、测试集（26例）和验证集（30例）。

二、研究方法

本研究纳入的影像学资料均进行人工手动分割脑血肿边界。训练集和测试集用于训练算法分割，验证集采用手动分割、算法分割、精确多田公式和传统多田公式共4种方法对血肿体积进行测量。

1.血肿体积测量（1）人工手动分割：采用开源软件 Insight Toolkit SNAP（ITK-SNAP，https：//itk.org/）［9］进行分割，于 CT 平扫横断面图像，沿脑血肿边界进行勾画，标注后的血肿由ITK-SNAP 软件生成1 个分割文件，并输出血肿体积。（2）精确多田公式：精确多田公式（精确A×精确B×精确C/2）是在ITK-SNAP软件辅助下，精确测量最大血肿面积层面血肿的最长径（A），以及该层面与最长径垂直的最长径（B），同时以实际层厚乘以出现出血的层面数（C），上述单位均为ml，所得数据小数点后保留2 位小数，以精确 A、B、C 相乘除以 2 得出血肿体积［9］。由两位研究者分别独立完成精确A、B、C 的测量，取测量结果的平均值纳入最终统计。（3）传统多田公式：传统多田公式（粗略A×粗略B×粗略C/2）是将上述精确多田公式所测结果取平均值后，进行换算。将精确A、B 单位换算为cm 并保留1位小数，将层面数按照5 mm 层厚取整后获得C，以换算的粗略A、B、C 相乘除以2 获得血肿体积，以ml 为单位并保留1 位小数。（4）基于卷积神经网络的算法分割：在血肿手动分割后，作为卷积神经网络的输入数据，采用TensorFlow 平台（https：//tensorflow.google.cn）和cuDNN（https：//developer.nvidia.com/cudnn）搭建 3D卷积网络［9］，可通过 AccuBrainTX（http：//www.accubraintx.com/）访问算法分割模型。最终，以手动分割为基准，计算其他方法的百分误差，即（其他方法-手动分割）/手动分割×100%。同时按血肿形态标注为规则和不规则；按人工手动分割的体积，以6 ml为界值，标注血肿体积为≥6 ml与＜6 ml。

2.统计分析方法采用SPSS 20.0 统计软件进行数据处理与分析，使用PRISM GraphPad 8.0绘图。数据的正态性检验采用Kolmogorov-Smirnov 检验，不同方法之间的一致性检验采用Bland-Altman 分析（均数-差值）、组内相关系数（ICC）表示，呈正态分布的计量资料以均数±标准差（）表示，呈非正态分布的计量资料以中位数和四分位数［M（P25，P75）］表示，采用Mann-WhitneyU检验，以P≤0.05为差异具有统计学意义。

结果

经Kolmogorov-Smirnov 检验，通过不同计算方法获得的血肿体积以及各种方法与手动分割的体积百分误差均为非正态分布资料（均P＜0.05），不同方法计算所得血肿体积和各种方法与手动分割的体积百分误差如表1 所示，算法分割的百分误差最小，而精确多田公式的百分误差低于传统多田公式，提示在4 种算法中以算法分割所得血肿体积更接近手动分割结果。

表1 不同测量方法的血肿体积和百分误差［M（P25，P75）］Table 1. ICH volumes and percentage error by different measurement methods [M (P25, P75)]

不同方法的一致性检验结果如表2，图1 所示，在各种方法与手动分割血肿体积的差值中，以算法分割的差值范围最窄，为17.90 ml；精确多田公式和传统多田公式的差值范围更宽，分别为32.45 和34.52 ml；3 种方法与手动分割的组内相关系数均较高（＞0.75），但是算法分割对手动的组内相关系数为0.983，均高于两种多田公式对手动的方法（0.923和0.917）。

综合上述一致性检验结果，可以认为算法分割、精确多田公式和传统多田公式3 种方法与手动分割均具有较好的一致性，其中算法分割较两种多田公式的波动范围更小，而精确多田公式略小于传统多田公式。

为了进一步分析不同方法一致性检验存在差异的原因，本研究还对不同方法的百分误差在不同血肿形态（规则、不规则）、不同体积（≥6 ml、＜6 ml）中是否存在差异进行探索。验证集中30 例自发性脑出血患者头部CT 影像呈规则血肿者18 例、不规则 12 例，血肿体积 ≥ 6 ml 者 19 例、＜ 6 ml 者 11 例。如表3所示，Mann-WhitneyU检验显示，血肿规则与血肿不规则组之间精确多田公式的百分误差差异具有统计学意义（P=0.038），提示该公式百分误差在不同血肿形态中有所不同；而其他方法的百分误差，在不同血肿形态（规则与不规则）或血肿体积（≥6 ml 与＜6 ml）的比较，组间差异均无统计学意义（P＞ 0.05）。

讨论

本研究基于卷积神经网络的脑血肿自动分割算法可自动识别、分割头部CT平扫所显示的自发性脑血肿形态，并计算血肿体积，以手动分割为“金标准”，分别对算法分割、精确多田公式和传统多田公式进行一致性检验，结果显示：与多田公式相比，算法分割的百分误差最小，为15.54（8.41，23.18）%、组内相关系数最高，为0.983，Bland-Altman 一致性检验显示，93.33%（28/30）的数据在95%一致性界限（LoA），并且其95%LoA最窄，为-6.46 ～5.97 ml，表明该方法测量结果稳定，与“金标准”的一致性良好。同时对不同血肿体积和形态，算法分割百分误差差异均无统计学意义。

表2 不同测量方法的一致性检验（n=30，ml）Table 2. Agreement statistics of different measurement methods (n=30, ml)

图 1 Bland-Altman 一致性检测 1a 算法分割的 95%LoA 最窄，为-6.46 ～ 5.97 ml，6.67%（2/30）的点在95%LoA 以外。在95%LoA 以内，算法分割与手动分割血肿差值的最大值为4.50 ml 1b，1c 精确多田公式和传统多田公式的95%LoA范围分别为-12.55 ～16.51 ml 和-13.34 ～18.07 ml，均有10%的点在95%LoA 以外。在95%LoA 以内的差值最大值分别为8.39和5.91 mlFigure 1 Bland-Altman analysis findings The 95%LoA of algorithm segmentation was - 6.46-5.97 ml and the points outside 95%LoA was 6.67% (2/30). Within 95%LoA, the maximum value of hematoma difference was 4.50 ml between algorithm segmentation and manual segmentation (Panel 1a). The 95%LoA of accurate Tada formula and traditional Tada formula were - 12.55-16.51 ml and - 13.34-18.07 ml, respectively. Within 95%LoA, the maximum value of hematoma difference was 8.39 and 5.91 ml, respectively (Panel 1b, 1c).

多田公式计算方法是由椭球体体积公式（4/3×π×0.50长×0.50宽×0.50高）简化而来，因其计算简便、快捷而广泛应用于脑血肿体积的估算，但该公式易高估血肿量［10］。既往研究认为，多田公式在血肿形态不规则或呈散在分布时，不能准确地估算出血肿体积［11］。本研究结果显示，精确多田公式计算中出现的百分误差，在规则和不规则血肿中存在统计学差异；而传统多田公式在两型之间的百分误差则差异无统计学意义。这可能与精确多田公式的百分误差较传统多田公式［17.49（11.24，43.01）%对22.70（14.53，38.92）%］稍小有关，即无论是血肿形态规则与否，传统多田公式的百分误差均较大。研究显示，血肿体积越大（＞40 ml 与20 ～40 ml），多田公式的误差绝对值和百分误差越大［12］。本研究结果提示，采用多田公式估算血肿体积，其百分误差在不同血肿形态中存在一定差异，而在不同血肿体积计算中则无这种差异，与Xu等［4］的研究结果基本一致。值得注意的是：既往关于计算机辅助计算对比多田公式估算血肿体积的研究，并未说明其研究所用多田公式的估算方法是基于计算机精确测量还是传统胶片估算法［4，7，13］。而本研究则提示，与直接估算胶片的传统多田公式相比，借助各类医学影像工作站中的工具精准测量A、B、C 数值的百分误差更小、组内相关系数更高、95%LoA 更窄且与手动分割结果的一致性更高，能够更为准确地估计出血肿量。

表3 不同测量方法在不同血肿形态和体积中的差异性分析［M（P25，P75），%］Table 3. Difference analysis of hematoma shape and volume in different measurement methods [M (P25, P75), %]

为了更加精确、快速地获得脑出血量，弥补传统计算方法的不足，目前推出了多种血肿自动分割算法，诸如灰度聚类［5，14］、贝叶斯法［15］、随机森林［7］等，近年随着神经网络相关算法的进步与提高，深度学习算法被用于血肿分割［6，16］，其准确度可达80%［6］。但计算机工程指标，如准确度、戴斯（Dice）值等不能很好的回答临床问题，例如测量稳定性、与传统方法的比较优势等。在本研究中，我们对卷积神经网络与手动分割的一致性进行探索，不仅通过Bland-Altman 一致性检验和95%LoA 证实了前者的准确性，而且经对血肿形态和体积大小的对比分析，进一步验证了该算法用于不同形态和体积脑血肿的稳定性。而且与多田公式法相比，卷积神经网络对脑血肿体积的计算优于传统计算方法。

精确并稳定地计算脑血肿体积，有助于临床医师更好地把握病情、更精准地回答临床问题。以手术治疗脑出血的疗效研究为例，有时在高质量的证据之间的结论会存在矛盾，虽然包括Cochrane 系统评价在内的系统评价均认为手术可降低病死率［17］，甚至改善 Glasgow 预后分级（GOS）等远期转归［18］；但在Lancet报道的多项有关手术疗效的大型国际多中心高质量随机对照临床研究中，如涉及早期手术疗效的国际脑出血外科手术试验（STICH-Ⅱ）［19］或穿刺引流联合重组组织型纤溶酶原激活物（rt-PA）微创术与重组组织型纤溶酶原激活物联合清除颅内出血研究（MISTIE-Ⅲ）［20］，经总体分析均未得出外科手术能够降低患者病死率的结论。脑血肿体积是判断患者是否需行手术治疗的指征［21］，而传统的血肿体积计算方法（多田公式）中存在较大的误差，推测可能即是造成上述高质量证据之间矛盾的原因。除了准确计算脑血肿体积，随着人工智能技术在临床医学领域的深入应用，逐渐实现自动、精准和便捷的脑血肿分割，是今后影像组学、手术模拟以及手术导航等计算方法进一步研究的基础。

由于基于卷积神经网络的算法分割研究尚处于初级阶段，故具有一定的局限性：（1）虽然训练集、验证集样本来自多中心影像学资料，但因数量较小，对其算法的推广、泛化能力仍有待进一步验证。（2）病例数较少，验证集中的血肿呈偏态分布，对血肿体积、形态的差异比较采用了非参数检验，其结果需在今后的研究中扩大样本量，采用进一步的差异性检验加以验证。（3）验证集中血肿体积较小，平均仅为16 ml，导致绝对差值较小、百分误差随之增大，造成百分误差被高估。