基于Adaboost算法的多特征融合肺部PET-CT图像的肿瘤分类方法*

2017-08-30何校栋邢海群

中国医学装备 2017年8期

何校栋邢海群王瞳霍力李方张辉*

何校栋①邢海群②王瞳②霍力②李方②张辉①*

目的：提出并设计使用PET-CT影像定位肺部病灶区域并辅助判断病灶点的自动化流程，并对整个算法流程进行评价和分析，以提高临床工作效率。方法：选取北京协和医院核医学科20例肺部肿瘤患者的PET-CT影像，使用图像尺度变换等图像处理方法，去除CT图像中的床位，用等高轮廓线在PET-CT影像中提取样本区域，并依据预先标记的病灶区域信息对样本区域进行类别划分，提取每个样本区域的图像特征。应用Adaboost算法进行训练，建立相应的分类模型，利用训练好的分类模型对测试集进行测试，对比弱分类器构成的集成分类模型的准确率，用检出率、误检率、感兴趣区域(ROC)曲线以及病例分类的正确率对分类结果进行评估。结果：对20例患者的PET-CT图像预处理后，共产生125088个样本，其中正样本22720个，负样本为102368个，用等高轮廓线进行区域划分，使用Adaboost.M2算法融合多种特征训练出来的强分类器的样本分类正确率为97%左右，20例肺部肿瘤患者的粗分类结果全部正确，细分类结果正确率为100%。结论：将等高轮廓线区域技术与Adaboost算法相结合，融合多个特征构建分类器提取并识别肺部肿瘤区域的方法能有效改善弱分类器的过拟合现象，有效的提高弱分类器的准确率，该算法实现了从PET-CT影像到诊断结果的自动化，为临床医生提供更清晰的诊断结果，极大提高临床工作效率。

自动化诊断；Adaboost算法；PET-CT；多特征融合分类；等高轮廓线；肺癌

当前，肺癌已成为人类癌症死亡的主要原因之一，我国肺癌病患的发病率和病死率也在逐年攀升，其中大约80%的肺部肿瘤患者就诊时已经属于肺癌晚期[1]；而经过早期筛查、诊断和及时治疗的肺癌患者5年生存率达到35%～80%[2]。正电子发射断层显像(positron-emission tomography，PET)，X射线计算机断层成像(computed tomography，CT)，PET-CT影像诊断则是进行肺部肿瘤早期筛查的有效工具。

目前，在临床影像诊断中医生大多通过手工圈定患者感兴趣区域(region of interest，ROI)来确定医学图像中的ROI，由于国内患者众多、医生的工作量和工作压力大等因素导致诊断的准确率降低。近年来，人们越来越多地尝试将计算机技术应用到临床检查和诊断上来。

1 方法与数据

本研究采用数字图像处理技术对PET-CT影像进行一系列自动化处理，不需要医师或者研究人员手动设定ROI，能有效的减少临床工作人员的工作量。

1.1 方法流程

算法先用数字图像处理技术处理获取的PET-CT影像，确定肺部的样本区域，然后提取样本区域的特征，构建数据集合，接着划分数据集，用划分出来的训练集训练分类器，再用测试集测试训练好的分类器，最后对实验结果进行分析解读，算法流程如图1所示。

图1 算法流程图

1.2 临床数据描述

使用从北京协和医院核医学科获取的20例肺部肿瘤患者的PET-CT影像，核医学科2名经验丰富的医师已在图像中标记出病灶区域；患病结果分别有良性(benign)和恶性(malignancy)，其中良性又细分为良性肿瘤(benign Tumor)和炎症(inflammation)两种情况，而恶性肿瘤又根据分化程度的不同，细分为低分化(poor differentiated)、中分化(moderate differentiated)和高分化(well differentiated)三种情况。研究中使用的20例PET-CT图像粗分类良性肿瘤8例，恶性肿瘤12例，细分类则良性肿瘤、炎症、低分化、中分化和高分化各4例。北京协和医院核医学科2名医师对上述20例患者的PET-CT图像进行病灶点的标记，标记病灶点37个，病灶所在切片共152层。

1.3 确定样本区域

对每个病例的CT和PET肺部图像使用等高轮廓线进行区域划分，然后对每个等高轮廓线划分出来的区域进行二值图像孔洞填充，经过填充之后的每个连通的区域即是一个样本。若样本50%的区域面积为病灶区域，则该样本就标记为正样本(病灶样本)，病灶区域面积低于样本面积的50%，则标记该样本为负样本(None-非病灶区域)。

对20例患者的PET-CT图像预处理后，共产生125088个样本，其中正样本22720个，负样本102368个，其结果见表1。

表1 病例样本数量(个)

1.4 样本特征提取

目前X射线胸片、CT扫描能帮助医师对大部分肺癌做出诊断和分期判定，但对于一些早期病变的判定帮助有限。PET在肿瘤的早期诊断、分期和疗效评估方面有较高的敏感性和特异性，但其空间分辨力较差。PET-CT的出现弥补了这两方面的缺憾，其融合专用的PET扫描仪和CT扫描仪的技术，提供了来自两种显像方式的独特信息[3]。本研究主要对PET-CT在肺癌诊断中的应用进行了研究，PET和CT影像信息互相参考，互为印证，可以弥补CT定性困难的缺陷和PET定位不精确，以及由于生理性摄取造成假阳性率的缺陷，极大提高诊断效能[4]。

PET图像中通常用于诊断肺癌的指标为最大标准化摄取值(maximum standard uptake value，SUVmax)，PET影像中的SUVmax与肿瘤大小、病理类型等相关[5]；病灶最大径、最小径及病灶密度均与SUVmax呈明显正相关关系，将各影响因素扣除后，不同组织学类型及不同分期非小细胞肺癌的SUVmax特征无明显差异[7]。也有学者引入如表观弥散系数(apparent diffusion coefficient，ADC)、平均标准摄取值(mean standard uptake value，SUVmean和最小标准摄取值(minimum standard uptake value，SUVmin)[5][1]等指标用于诊断癌症，但目前临床中仍使用SUVmax作为诊断癌症的首选指标[8]。

参考临床上的应用、PET-CT影像的特点以及其他学者在PET-CT影像辅助诊断肺癌课题上的研究，实验提取PET-CT图像中样本区域的13个特征作为数据输入，每一个样本区域产生一个13个特征数据表示的向量，作为数据集合的输入；13个样本特征以及特征的说明见表2。

表2 样本特征具体说明

样本特征中的胸膜距、质心距是样本区域的位置特征，用于描述样本区域的位置，如图2所示。

图2 样本位置特征示意图

2 分类器原理

研究中的分类器使用Adaboost.M2算法[9]。该算法是Adaboost算法[10]针对多分类问题的一个扩展算法，使用加权分类错误率来衡量分类器的准确率。分类器的输入是数据样本的特征向量；分类的结果有两种，粗分类则分别是无病灶、恶性肿瘤及良性肿瘤；细分类则是无病灶、良性肿瘤、炎症、中分化、低分化以及高分化。

2.1 Adaboost.M2算法训练分类器流程

准备好训练样本集合后，Adaboost.M2算法首先初始化样本权重，然后经过N次迭代，选出N个弱分类器，每次迭代过程中，需要计算加权分类错误率，样本的观测权重以及弱分类器的权重，训练流程如图3所示。

图3 Adaboost.M2算法训练分类器流程图

2.2 Adaboost.M2算法参数

Adaboost.M2算法训练分类器的流程图显示，其中Adaboost.M2算法加权分类错误率计算为公式1[10]：

式中ht(xn,k)是第t步产生的分类器将第n个样本分到第k类时所获取的可信度，0≤ht(xn,k)≤1，0代表可信度较低，1代表可信度较高；为第t步类别k的观测权重；yn是第n个样本的真实类别。

Adaboost.M2算法在训练分类器时，主要用到以下几个参数：①迭代次数N(也是弱分类器的个数)；②样本的权重；③弱分类器。在实验过程中设置迭代次数N为100，若迭代次数太小则最后训练出的强分类器会出现过拟合现象；设置迭代次数太大，则分类器的正确率不会随着迭代次数的增加而提高，也会增加分类器的训练时间。

权重在Adaboost.M2算法中能使弱分类器误分类样本的权值增大，减小正确分类样本的权值。通过此方式，Adaboost算法能重点关注或聚焦于那些较难分的样本上。此外，可以通过调整权重来影响不同样本分类错误带来的“惩罚”值，本研究将正样本的权重调整为负样本权重的5倍，可以理解为正样本分为负样本，带来的“惩罚”比较大，而负样本分为正样本，得到的“惩罚”比较小。这样设计权重，能够符合临床的需要，在保证正确率的情况下，尽可能减少被误分的正样本的数量。

在Adaboost.M2算法中主要使用判别式分类器和决策树分类器进行对比分析。判别式分类器，估计的是条件概率，直接为条件概率假设一个函数形式，从训练的数据集中估计函数的参数，是样本到条件概率的映射[11]。决策树分类器CART方法是由Breiman等人在1984年提出的一种决策树分类方法[12]。

3 实验结果

实验中的总样本量为125088个，其中22720个正样本(包含病灶区域的样本)，102368个负样本(不包含病灶区域的样本)。

3.1 划分数据集

使用总样本的80%作为训练集，总样本的20%作为测试集。训练集和测试集的详细数量分布见表3。

表3 训练集和测试集样本分类数量及比例

3.2 训练集和测试集的检出率

通过数据的对比显示，判别式分类器的检出率在88%左右，而决策树分类器的检出率在97%左右，表明弱分类器为决策树分类器的情况下，准确率高于判别式分类器，因此在后续的病例分析中，使用决策树构造的集成分类器对病例进行分类。此外，训练集和测试集的检出率非常接近，Adaboost算法基本不存在过拟合(over-fitting)现象；在使用相同的弱分类器的情况下，粗分类的准确率和细分类的准确率相差不大，检出率相差≤2%，这表明实验样本能提供足够多的信息来进行准确分类。使用Adaboost.M2算法对分类器进行100轮训练和测试后，分类器的检出率和误检率见表4。

表4 训练集和测试集检出误检率(%)

3.3 ROC曲线

无论是粗分类还是细分类，各个分类ROC曲线下面积(area under the curve，AUC)都比较接近，表明Adaboost算法分类比较均衡，不会“牺牲”数量较少的样本类别，来追求分类准确率的提升，在图4的子图(B)中，细分类决策树分类非病灶样本的ROC曲线下方面积明显少于其他曲线，表明算法将一定数量的非病灶点分为了病灶点。Adaboost算法集成分类器的ROC曲线如图4所示。

图4 Adaboost算法集成分类器测试集ROC曲线

3.4 病例分类正确率

使用训练好的分类器，对每个病例中的样本点进行分类，然后统计该病例肺部区域的病灶面积，病灶面积最大的类别就是该病例的分类结果，若病例的分类结果和病例的标记结果相同则该病例分类正确。如图5所示，(A)为测试结果的示意图，其中六个样本的分类结果均为高分化，但是其病灶区域面积只计算一次；(B)为对应切片上预先标记出的病灶区域，从(A)中右上角的子图中可以看出，多个样本(每一个轮廓线包围的区域产生一个样本)覆盖了同一个病灶区域，即使一两个样本分类错误，对该区域的最终分类结果也不会有太大的影响。

图5 切片分类结果示意图

Adaboost算法集成的决策树分类器对20例肺部肿瘤患者的粗分类结果全部正确，细分类结果正确率为100%。详细分类结果见表5。

表5 弱分类器为决策树的Adaboost算法对20例患者的细分类结果

4 讨论

本研究使用判别式分类器训练出来的集成分类器的正确率为86%左右，可能是因为研究中使用的数据包含负样本(非病灶区域)较多，R使用等高轮廓线自动提取的ROI，其准确率没有临床医师手动勾画的ROI精度高[13]。此外，PET和CT图像配准的精确度对算法的分类准确率也会有影响。本研究使用Adaboost算法，融合多个特征构建分类器提取并识别肺部肿瘤区域的方法能有效改善弱分类器的过拟合现象，并能将多个特征融合在一起，有效的提高弱分类器的准确率。实验过程中，除了训练集成分类器的时候，需要标记好的PET-CT影像，测试过程中未用到预先标记的数据，在测试病例的过程中，不需要人为的标记和干预，提高了整个诊断流程的自动化程度，动态示踪模型(Tracer kinetics model)能够从PET动态图像中获取更多的信息，并提供更有价值的诊断结果。然而，国内人口基数大，病患数量多，PET-CT设备数量较少，获取PET-CT动态图像的时间长等客观因素都限制了动态扫描在临床中的应用。

5 结语

本研究实现了一个从PET-CT影像到诊断结果自动化的流程，不需要医师勾画ROI，在临床中能有效减少医生的工作量，使用分类的概率来描述患者的分类结果，为医生提供一个更加清晰可靠的结果。此外，由于算法的研究尚处于初级阶段，在后续的研究中可以尝试寻找更加准确的特征、优化ROI的自动提取的流程，减少负样本(非肿瘤区域)的比例来提高算法的分类准确率。

[1]席雯，穆新林.肺癌筛查方法与早期诊断[J].中国临床医生杂志，2013，41(9)：7-9.

[2]金河，徐世东.肺癌的诊断方法[J].实用肿瘤学杂志，2012，26(3)：285-288.

[3]杨吉刚，马大庆.PET-CT在肺癌诊断中的应用[J].首都医科大学学报，2007，28(6)：717-720.

[4]孙海辉，乔智红，邱书珺，等.PET/CT在肺癌诊疗中的应用价值[J].武警后勤学院学报(医学版)，2009，18(11)：993-996.

[5]Goo JM，Im JG，Do KH，et al.Pulmonary Tuberculoma Evaluated by Means of FDG PET：Findings in 10 Cases1[J].Radiology，2000，216(1)：117-121.

[6]Turkington TG，Coleman RE.Clinical oncologic positron emission tomography：an introduction[J]. Seminars in Roentgenology，2002，37(2)：102.

[7]李建南，冯洪波，蔡博文，等.非小细胞肺癌病灶大小及密度与PET/CT标准摄取值相关性研究[J].大连医科大学学报，2012，34(1)：56-59.

[8]关志伟，姚树林，田嘉禾，等.PET诊断肺部肿瘤的SUV值与灵敏度分析[J].中国临床医学影像杂志，2003，14(3)：169-172.

[9]Ho TK.The random subspace method for constructing decision forests[J].IEEE Trans. Pattern Analysis and Machine Inteligence，1998，20(8)：832-844.

[10]Freund Y，Schapire RE.A decision-theoretic generalization of on-line learning and an application to boosting[C]//European Conference on Computational Learning Theory.Springer Berlin Heidelberg，1995：23-37.

[11]Guo Y，Hastie T，Tibshirani R.Regularized linear discriminant analysis and its application in microarrays[J].Biostatistics，2007，8(1)：86-100. [12]Loh WY，Shih YS.Split Selection Methods for Classification Trees[J].Statist Sinica，1997，7(4)： 815-840.

[13]周飞华，王宏，魏光明，等.胸部疾病FDG PET、PET/CT显像的假阳性和假阴性陷阱[J].现代生物医学进展，2012，12(29)：5792-5797.

[14]Staff TPO.Correction：Correlation of the Apparent Diffusion Coefficient(ADC)with the Standardized Uptake Value(SUV)in Lymph Node Metastases of Non-Small Cell Lung Cancer(NSCLC)Patients Using Hybrid18F-FDG PET/MRI[J].Plos One，2015，10(1)：922-926.

[15]Tong S，Shi P.Tracer Kinetics Guided Dynamic PET Reconstruction[M].Information Processing in Medical Imaging，Springer Berlin Heidelberg，2007：421-433.

[16]邹建，何校栋，朱文佳，等.一种(11)C-acetate肝脏PET动态成像的逐像素参数估计算法[J].中国医学影像技术，2016(7)：1124-1129.

A classification method for tumor of PET-CT image of multi feature fusion for lung based on Adaboost algorithm/

HE Xiao-dong, XING Hai-qun, WANG Tong, et al// China Medical Equipment,2017,14(8):5-10.

Objective: To propose and design an automated process for localization of lesion region of lung and for assisted judgment of lesion sites by using PET-CT images, and to evaluate and analyze the whole algorithm flow so as to increase efficiency of clinical work. Methods: PET-CT images of 20 patients with lung tumor were selected and series of image processing methods including transforming of image scale were used to remove the bed of CT images. The contour line of equal altitude was used to extract region of sample in the image of PET-CT, and the region of sample was classified as category depended on pre-marked information of lesion region, and then the future of image in each region of sample was extracted. The Adaboost algorithm was applied to train and establish corresponding classification model. Finally, the classification model that has been trained was used to examine the test set, and the accuracy rate of integrated classification model consisted of weak classifiers was compared. Besides, the detectable rate, false detecting rate, ROC curve of interesting and the correct rate of the classification for cases were used to evaluate the results of classification. Results: There were 125088 samples were produced after the PET-CT images of 20 patients were pre- processed, and the positive samples and negative samples were 22720 and 102368, respectively. The correct rate of classification for sample of strong classifier, that was trained by using equal altitude contour line to classify region and using Adaboost. M2 algorithm to fuse with multi future, was around 97%. The results of rough classification of 20 patients with lung tumor were correct, and the correct rate of results of fine classification was 100%. Conclusion: The new method that combines the region technique of equal altitude contour line with Adaboost algorithm and that fuses multi futures to establish classifier and identify region of lunge tumor can efficiently increase the accurate rate of weak classifier. This method realizes the automation from PET-CT images to diagnosis results and provides clearer diagnosis results for clinicians, and increase the efficiency for clinical work.

Automatic diagnosis; Adaboost algorithm; PET-CT; Multi feature fusion classification; Contour line of equal altitude ; Lung cancer

Department of Biomedical Engineering, School of Medicine Tsinghua University, Beijing 100084, China.

1672-8270(2017)08-0005-06

R734.2

10.3969/J.ISSN.1672-8270.2017.08.002