超声射频信号的甲状腺结节智能诊断方法∗

2021-04-22高凡屠娟章东

应用声学 2021年1期

高凡屠娟,2 章东,2

(1 南京大学声学研究所南京 210093)

(2 湖南润泽医学影像科技有限公司岳阳 414000)

0 引言

癌症是对人类健康的一大威胁，在中国，癌症的发病率和死亡率一直持续上升[1]。而在所有癌症当中，甲状腺癌的增长是最为明显的，而且由于人口老龄化的原因，未来所面临的情况将更为严峻[2]。因此，对存在癌变可能的甲状腺结节进行检查显得尤为重要。细针穿刺活检(Fine-needle aspiration,FNA)[3]是判断甲状腺结节良恶性的金标准，但是检查费用昂贵，而且会给患者带来巨大的痛苦，在目前的临床应用中，仅当结节被怀疑为恶性的时候才会进行穿刺活检。因此，在做穿刺活检之前对甲状腺结节的预筛查有着重要的临床价值。

甲状腺结节的预筛查方法主要包括X光照片(Radiographs)[4]、计算机断层成像(Computed tomography,CT)[5]、磁共振成像(Magnetic resonance imaging,MRI)[6]和超声成像。其中X光检查的辐射会对人体造成损害，CT和MRI需要消耗大量的时间，使用成本较高。相比较而言，超声由于其非侵入性、成本较低、使用方便、对人体无害的特点，目前在临床上已经广泛应用于甲状腺结节的筛查[7]。美国放射学会提出甲状腺成像报告和数据系统(Thyroid imaging reporting and data system,TI-RADS)[8]，用于对甲状腺结节图像进行预筛查。但是TI-RADS依赖于超声科医生的经验，具有较强的主观性，且人工筛查会增加医生的工作量。超声智能诊断系统在解决以上问题方面展现出巨大的应用前景。该方法旨在通过各类机器学习技术，利用计算机智能分析对超声图像给出参考性的诊断意见，进行初步的筛查，帮助医生减轻工作量。

目前在智能诊断方面的研究大致分为两类：一类是将特定参数人工提取与较为简单的机器学习工具相结合的传统方法，计算机所需要完成的仅仅是对人工提取完毕的特征进行分析和组合；另一类是依靠深度神经网络，利用计算机对大量标记后的超声图像进行自发学习和聚类，而无需人工提取特定参数。前者中比较有代表性的包括P值法[9]、基于定量超声(Quantitative ultrasound,QUS)参数的研究[10]等。这类方法依赖于人工对兴趣区(Region of interest,ROI)的准确选取或精确的图像分割方法来将结节与正常组织区分开，且往往将分割出的结节作为一个整体进行研究，在整个结节内部取得参数的平均值，这样的做法可能会导致信息的丢失。根据TIRADS中的临床诊断标准，结节良恶性的区分不仅依赖于与结节整体的特征例如平均灰度、散射子平均直径，也与很多图像的局部特征有关，诸如是否有毛刺[11]、边界是否清晰规整[12]、内部是否有钙化斑点[13]等等，甚至结节周边的组织形态也与结节的良恶性有着密切的关联[14]，而这些特点很难用单个参数来进行表征。因此，传统方法具有较大的局限性，限制其准确度的进一步提升以及临床应用的可能性。为了解决以上问题，深度神经网络被应用到该领域[15−17]，通过搭建复杂的神经网络，对大量的超声图像进行层层卷积，由计算机自动提取所需特征。该类方法可以充分利用图像中的细节信息，从而达到更高的准确率。但是深度学习本身依赖于大量的样本和较大的计算资源，成本较高，如果样本数目不足，则无法自动提取出准确的分类特征，且对于计算机自动判别的中间过程难以给出详细的理论解释，限制其与现有的医学知识相结合。因此，有必要在这两者之间进行折衷，提出一些针对医学领域特定的方法，既可以尽量减小所需的计算资源，又可以对结节的良恶性进行准确区分。此前，研究者们通过灰度共生矩阵提取超声射频(Radio-frequency,RF)信号的纹理特征[18−19]，且取得较好的分类效果，并可通过改进算法进一步缩减计算量。

超声RF信号相比于传统超声图像在计算机智能诊断方面具有独到的优势。传统超声图像除了对超声RF信号进行取包络和对数压缩之外，还加入了诸如对比度增强、平滑滤波等个性化设置，这些操作会使超声图像更加美观，但是其中的一部分信息不可避免地丢失。研究表明，超声原始RF信号比传统的超声图像包含更多信息，而一些在人工判断中用处不大的信息对于机器来说却可以很好地利用[18]。近年来，基于超声RF信号的组织定征参数已经被应用于甲状腺诊断之外的医学领域，例如Tsui等使用基于超声原始RF信号的香农熵[20]、加权熵[21]和峰度[22]对脂肪肝病变进行分级，而Nakagami成像也被应用于白内障的筛查[23]。这类组织定征参数基于超声RF背向散射信号，描述其局部的概率密度函数的特征，具有较强的物理理论基础，能够反映生物组织由于各种原因发生的异变，且与灰度共生矩阵相比，其计算量有着明显的降低。

因此，本文提出一种基于该类参数的计算机智能诊断方法用于甲状腺结节的预筛查，使用滑动窗口图像分析方法，对超声原始RF信号进行重构，形成熵、加权熵、Nakagami-m和峰度的图像。为了进一步提取样本的细节，在特征提取的步骤中，使用16块ROI覆盖结节，以代替传统方法中仅使用一整块区域的做法。本文使用基于误差逆向传播算法训练的人工神经网络(Artificial neural network,ANN)[24−25]作为分类器，该种网络相比用于深度学习的卷积神经网络(Convolutional neural networks,CNN)要简单，具优势在于：无需对潜在的关键变量进行先验的识别，无需对数据进行太多的正则化，并且可以识别输入变量之间复杂的非线性关系，且有多种训练模式可供选择。此外，本文还研究了覆盖甲状腺结节的ROI数量和大小对于准确率和训练时间的影响，比较了基于概率密度函数的熵、加权熵、Nakagami-m和峰度与基于灰度共生矩阵参数的计算时间。在本文的研究基础上，有望可以建立更为精准、高效的基于超声RF信号的甲状腺结节良恶性智能诊断新方法，并推动其在临床领域的实际应用。

1 材料和方法

本研究的数据处理流程如图1所示。将采集得到的超声RF信号经过数据筛选、滑动窗口重构、特征提取等预处理步骤之后，得到一系列用于神经网络训练的样本，再利用划分出的训练集和验证集训练用于良恶性分类的人工神经网络，用预留的测试集测试其分类效果，并统计结果。

图1 数据处理的流程图Fig.1 Flow chart of data processing

1.1 数据获取

从南京军区总院采集数据，用vinno70型飞依诺彩色多普勒超声系统采集患者的原始RF数据并保存其对应的B超图像。诊断仪设置在组织谐波模式，即由二次谐波信号成像，扫描探头为X6-16L宽频带探头，探头频率设为10 MHz。以50 MHz采样频率采集回声信号，获得原始RF数据，每帧数据包含312条扫描线，每条扫描线包含2856个采样点，共采集270例样本。

为适应文中所提出的方法，对数据按照一定标准进行筛选，首先，去除由于采集时抖动等客观原因而导致图像模糊、无法人工标定结节的样本。此外，由于本文所提出的方法在参数提取的步骤中需要使用多块ROI对结节的局部区域进行提取分析，过大的结节需要用较大的ROI来进行覆盖，而过大的ROI会包含更多的生物组织，难以再视为结节局部的特征，合理性和一致性均有待商榷，基于这样的认识，本文去除了直径超过2.5 cm的结节。剩余的样本数量为155例，其中良性67例，恶性88例。

1.2 滑动窗口重构和使用的参数

使用滑动窗口技术[20]提取超声原始RF信号的特征参数。窗口长度设置为单个RF脉冲的1/2，以50%重叠率移动小窗遍历整个RF信号矩阵，在每个停留处计算其局部的参数大小。再以线性插值的方法将重构后的矩阵还原到原始信号相同大小，以方便后续统一进行计算处理。所提取的组织定征参数包括以下4类，即香农熵、加权熵、Nakagami-m及峰度。

香农熵[20]的计算公式为

其中，y代表信号幅度，w(y)是其概率密度函数，在实际计算中以离散的统计直方图代替。香农熵衡量的是信号的混乱程度，如果信号幅度处处相等，则熵取得最小值；若信号幅度每处均不相等，则熵取得最大值。注意到滑动窗口所覆盖的信号为二维信号，本文将二维信号重排成为一维信号，再对重排得到的一维信号使用公式进行计算。

加权熵[21]的计算公式为

加权熵是针对香农熵的统计学修正。注意到香农熵的公式的幅值y只在概率密度函数w(y)中出现，因此香农熵的大小实质上和幅值大小无关，只与其概率密度函数有关。而加权熵多了一个幅度加权因子，会放大信号中幅值较大的部分的影响，在组织定征方面与香农熵有一定的差异性。

Nakagami-m[23]参数的提取通常基于Nakagami信道模型，在该模型下，信号的概率密度函数可以表示为

其中，Γ和U代表伽马函数和阶跃函数，Ω表示信号的平均功率，为信号包络R的均方值。如果用E来代表统计平均值，那么m可以用公式(4)来表示：

其中，R为RF信号包络。Nakagami-m反映的是信号的分部类型偏离瑞利分布的程度，m<0.5时，属于Nakagami-gamma分布；0.51时为后瑞利分布。

峰度[22]的计算公式为

其中，µ是RF包络信号R的平均值。峰度是度量信号分布的尖锐程度的参量。峰度K=3表示包络数据的概率分布是高斯分布；当K>3时，信号分布比高斯分布尖锐，当K<3时，信号分布比高斯分布平缓。

图2是同一例原始RF信号经过滑动窗口重构之后得到的组织定征参数图像，每幅图像根据范围设置了不同的色轴，在所有图片中均可以看到异常的结节区域，对应RF灰度图片的低回声区，但是其边缘轮廓和细节特征因参与图像重构的参数不同而有一定的区别。

图2 典型的重构图像和结节选取Fig.2 Typical reconstructed image and nodule selection

1.3 组织病理学检查

通过常规的石蜡切片和苏木精-伊红染色，由经验丰富的病理学家判断组织病理学结果。结节性甲状腺肿、甲状腺腺瘤和甲状腺炎被归为良性，甲状腺乳头状癌、滤泡状甲状腺癌等归为恶性。

病理学检查的良恶性将作为金标准用于之后的ANN监督学习和敏感性、特异性、正确率的统计。

1.4 结节的选取和特征提取

首先，由有经验的超声科医师用矩形框对选定甲状腺结节进行定位，选取要求为包含甲状腺结节及其完整轮廓，如图2中红框所示，同一例样本在灰度图像和每个重构图像中选择相同区域。对每个框定的结节，使用16块等大的ROI进行覆盖，并计算其中的参数平均值作为样本特征(如图3所示)。为分析甲状腺结节与正常组织之间的差异性，本文取得与之等大的参考区域(Region of reference,RR)，选择与包含结节的方框相同大小的区域，且不包含明显异常的组织，尽量与结节相同高度，以保证是同一层组织，能有效对比(如图2中黄框所示)。

图3 多ROI覆盖结节和参数提取Fig.3 Use multiple ROIs to cover nodules and extract features

1.5 基于人工神经网络的图像识别

使用神经网络模式识别工具(Neural net pattern recognition tool,NPRTOOL)来搭建误差逆向传播的前馈人工神经网络对样本进行良恶性分类。选择莱文伯格-马夸特方法(Levenberg-Marquardt algorithm)作为训练方法，该算法是介于牛顿法与梯度下降法之间的一种非线性优化方法，对于过参数化问题不敏感，能有效处理冗余参数问题，使代价函数陷入局部极小值的机会大大减小，因此适用于当前的问题。使用“交叉熵”作为网络的代价函数，其优点在于使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题，因为学习速率可以被输出的误差所控制。

隐藏层中神经元的数量由以下经验公式确定：

其中，m是隐藏层中神经元的数量；n是输入层中输入的数量，该问题下为96；l是输出层中输出的数量，该问题下为1；α是1到10之间的常数。过少的神经元会导致网络的欠拟合，即无法充分利用输入的信息；而过多的神经元会增加网络的复杂度，也容易在训练中陷入局部极小点，使网络学习速度变慢。经过调试，神经元数量最终被确定为10。

神经网络的结构示意图如图4所示，其中Input代表输入的特征，在本问题下包括16处RF信号包络、16个灰度值、16个香农熵、16个加权熵、16个Nakagami-m和16个峰度，共96个特征。隐藏层包含10个神经元，单个神经元的结构如图4中所示，将输入x转为w x+b的形式，再由非线性的sigmoid函数来控制输出，w和b为待定系数，会在网络的收敛过程中不断调整直至稳定。输出层与隐藏层类似，但是只包含一个神经元用于控制最终的输出。Output为0或1，0代表良性，1代表恶性。

图4 人工神经网络结构示意图Fig.4 Schematic diagram of artificial neural network structure

2 结果

表1是各个组织定征参数在155例样本中的分布范围，以平均值±标准差的形式表示。其中参考区域选取的是结节附近相同大小不包含结节的正常组织。分别在结节和参考区之间、良性与恶性结节之间使用双样本t检验(p<0.05时视为有显著差异)。结果显示，结节与不包含结节的正常区域之间、良性和恶性两类结节之间，各项参数均具有统计学差异。

该结果表明，所选取的组织定征参数能有效反映甲状腺结节引起的组织异变，且恶性结节引发的异变相比于良性结节更大：恶性结节有着较低的香农熵、加权熵、Nakagami-m和较高的峰度，与之相反，不包含结节的正常组织，其香农熵、加权熵和Nakagami-m较高，峰度较低，而良性结节的各项参数正好介于恶性结节与正常组织之间。

使用人工神经网络统合所有的组织定征参数，表2是对155例样本进行良恶性分类的结果，其中70%的样本(109例)被划分为训练集，各15%的样本(各23例)被划分为验证集和测试集。以敏感度表示恶性结节的检出概率，以特异性表示良性结节的检出概率。在训练集上，网络达到了89.8%的敏感度、94.0%的特异性、91.7%的准确率；在验证集上，敏感度、特异性、准确率均为100%；在测试集上，敏感度为100%，特异性为90.6%，准确率为95.7%。所有样本敏感度为93.2%，特异性为94.0%，而准确率为93.5%。

基于上述结果，本文认为所有的组织定征参数在训练过程中都存在自身的贡献，并非单一某个参数的作用。为了验证这一推断，本文将单个参数分布作为输入量，使用人工神经网络进行分类并记录了结果，如表3所示，仅将单参数作为输入量进行训练时，其敏感度、特异性和准确率和表2中的结果相比均有不同程度的下降。

表1 灰度和组织定征参数的分布范围Table 1 Distribution range of grayscale and tissue characterization parameters

表2 人工神经网络训练结果Table 2 Artificial neural network training results

表3 单一参数的训练结果Table 3 Single parameter training results

图5是根据神经网络给出的参考评分与穿刺活检的良恶性结果做出的受试者特征(Receiver operating characteristic,ROC)曲线，其曲线下面积(Area under curve,AUC)可以用于评判二分类问题下的分类效果。结果显示，将所有的组织定征参数相结合(黑色曲线)的时候，AUC明显大于仅使用单一参数时的AUC。这进一步说明在网络训练的过程中，多个参数共同作用的效果要优于单个参数，且并非其中某一个参数在起主导作用，各个组织定征参数之间确实存在一定的互补性。

图5 良恶性分类的ROC曲线Fig.5 ROC curves for benign and malignant classification

3 讨论

3.1 组织定征参数对比灰度共生矩阵参数

对于计算机智能诊断系统来说，除准确率之外，其成本与运行时间也是需要考虑的因素，尤其在实际应用中需要应对大量样本时就显得更为重要。

基于灰度共生矩阵的纹理特征参数曾被用于超声图像的分析，但是其计算量相比于文中所用的组织定征参数更大，这是因为计算这类参数首先需要建立灰度共生矩阵，在此过程中，需要对每个滑动窗口中相邻的像素点进行逐点扫描统计，耗时较长。相比较而言，本文所用的熵、加权熵、Nakagami-m和峰度这几个组织定征参数来作为训练特征，仅需要在每个滑动窗口停留处做概率密度函数统计，无需通过二维纹理扫描的方式建立中间过度的灰度共生矩阵，其计算复杂度和耗时均较灰度共生矩阵参数有明显降低。

为了进一步验证这个猜测，本文同样对155例原始RF信号进行灰度共生矩阵参数的滑动窗口重构，提取灰度共生矩阵参数包括能量、逆差矩、对比度、同质性。结果显示，灰度共生矩阵的滑动窗口重构平均每例需要耗费48 s，总共需要将近2 h来完成，而使用香农熵、加权熵、Nakagami-m和峰度进行滑动窗口重构，平均每例仅需要12 s，155例样本总共只需0.5 h即可完成。

3.2 覆盖结节的ROI数目对训练时间的影响

本文采用了多块ROI覆盖甲状腺结节的方法，以代替传统方法中在整个结节内部取得参数平均的做法。对于人工神经网络来说，多块ROI进行覆盖可以增加样本信息，提供更多的局部特征，从而为其分类提供更充分的依据，但是过于密集的小块ROI和过于细致的提取同时也会带来额外的计算负担，因此需要考虑两者之间的平衡。

为了研究这个问题，本文分别使用1块、4块、9块、16块、36块、81块ROI对结节进行覆盖和特征提取，并分别独立地用人工神经网络进行训练和分类。如图6所示，当ROI数目从1块增加到16块时，良恶性分类的准确率随着ROI数目的增加而增加(从75%增加至95%)。但当ROI数目大于16块后，良恶性分类的准确率增长趋于饱和，而训练时间则始终随着ROI数量的增加呈指数增长。鉴于在使用16块ROI来覆盖结节之后，其分类准确率已经达到90%以上，足以完成预筛查的要求，所以本文最终采用16块ROI来对结节进行覆盖和特征提取。

图6 ROI数目对准确率和训练时间的影响Fig.6 The effect of ROI number on accuracy and training time

3.3 滑动窗口图像分析方法

本文使用滑动窗口对超声RF信号进行重构，形成新的组织定征参数图。在此过程中，窗口的大小是一个重要的变量。以往的研究表明，无论过大或者过小的窗口都会导致参数无法准确估计，过大的窗口还会导致分辨率下降。因此，本文尝试了不同窗口大小下的成像效果，发现在1/2脉冲长度的时候，所提取的参数区分度是最大的，同时图像分辨率也较高，综合参数的分布范围和图像的视觉效果，最终选择1/2脉冲长度作为窗口大小。

滑动窗口重构的过程中，使用公式对图像局部的参数进行计算，由于窗口大小远小于整幅超声二维图像，且与单个RF脉冲长度在同一数量级，因此可以认为局部的信号类型是比较接近的。而文中所用的组织定征参数的公式，对于各个信号的出现顺序并无要求，所以本文将位于窗口内的由几小段RF信号线组成的二维信号重排为一维，视为一列新的RF信号进行处理，计算该处的参数值。

3.4 局限性

需要指出的是，在基于B超图像的甲状腺智能诊断的工作中，结节的大小或整体形状可能会对诊断结果产生影响，因此，研究者们通常会采用入组数据预筛选的方式来提高诊断准确率。例如，Xu等[9]的工作通过对比ROI与RR区域中非线性二次谐波差异度，计算相对P值来对甲状腺结节的良恶性进行分类。当结节过大时，很难确保ROI和RR区域面积相等，只能通过数据预筛选剔除过大的结节，以降低误判概率。而本文采用滑动窗图像分析方法，通过对RF信号重构形成熵、加权熵、Nakagami-m和峰度等图像，在此基础上提取样本不同分区的细节信息，并利用ANN作为分类工具，将所有小块ROI的特征信息(如灰度、熵值等)作为综合判据纳入考量，由此避免单块ROI数据平均造成的细节信息损失，以此提高诊断的准确率。当结节过大时，需要设置较大的ROI来包含更多的生物组织，但过大的ROI难以被视为结节局部的特征。因此，本文也通过数据预筛选的方式去除了直径超过2.5 cm的结节。换言之，本文所提出的方法主要聚焦结节的细节信息，而忽略了样本的总体形态信息(如样本大小、纵横比等)对诊断结果的影响，且对面积过大的结节无法适用。

4 结论

本文提出了一种基于超声原始RF信号的组织定征参数和人工神经网络结合的甲状腺结节智能诊断方法。通过滑动窗口成像得到基于超声原始RF信号的组织定征参数图，提取结节内参数的平均值，并在良性和恶性样本、结节和正常组织之间使用双样本t检验，结果显示，结节与正常组织的参数有明显不同，且恶性结节偏离正常组织的程度更高。采用多ROI覆盖结节进行滑动窗成像，并结合人工神经网络对155例样本进行多参数提取和良恶性分类，可以达到93.2%的敏感度、94.0%的特异性、93.5%的准确率。此外，文中所用的组织定征参数计算复杂度要低于灰度共生矩阵参数，耗时仅为后者的1/4。在比对了不同数量和密集程度的ROI覆盖结节的效果之后，本文发现16块ROI是较为优化的选择，在达到较为满意的准确率的同时，尽可能控制计算资源和时间耗费。本文所提出的方法在一定程度上克服了传统方法无法充分利用图像局部细节信息的不足，另一方面，相比于深度神经网络来说，资源和样本量的需求较少，属于两者之间的折衷，有望在此基础上建立一套可用于甲状腺结节的预筛查的临床智能诊断系统。