APP下载

SC-BPSO:肝癌分类中一种融合过滤器的二进制粒子群算法特征的选择方法

2022-09-08楠,云,2)*

关键词:子集特征选择分类器

周 楠, 郑 云,2)*

(1)昆明理工大学信息工程及自动化学院,基础化学实验楼410室, 昆明 650500;2)昆明理工大学灵长类转化医学研究院,省部共建非人灵长类生物医学国家重点实验室, 昆明 650500)

肝细胞癌 (hepatocellular carcinoma,HCC)是最常见的出现在肝组织的原发性肿瘤,在世界范围内,其发病率目前在恶性肿瘤中排第5位,死亡人数在肿瘤导致的死亡中排第3位[1]。在中国,肝硬化和慢性乙肝是导致肝细胞癌的主要原因。肝细胞癌发生的分子机制主要包括3种情况:肝细胞内的癌基因激活、抑癌基因失活、肝细胞癌相关信号通路的过度活化[2, 3]。

微RNA(microRNA,miRNA)是一类长度约为18~25个核苷酸的内源性非编码小RNA分子,通过调控靶基因的表达,进而广泛地参与基因表达、细胞分化、增殖与凋亡、生物体发育等多种生物学过程的调控。在哺乳动物中,microRNA的作用机制主要认为是通过作用于mRNA的3′-端非翻译区,形成复合二聚体,进而抑制靶基因的表达[4]。

miRNA编辑是导致microRNA多样性的一种机制。其中,microRNA转录物中的单个碱基被化学修饰,使得microRNA序列不再对应于其基因组模板[5]。在哺乳动物中,最常见的 microRNA编辑形式由2种作用于RNA的腺苷脱氨酶 (adenosine deaminase RNA specific,ADAR)和腺苷脱氨酶B1(adenosine deaminase RNA specific B1,ADARB1)催化。这2种酶都以双链RNA(double-stranded RNA,dsRNA)为目标,并且能够将腺苷 (A) 转化为肌苷 (I)。肌苷 (I) 是一种具有与鸟苷 (G) 相似的碱基配对特性的碱基[6]。A-to-I miRNA编辑作为microRNA表达和功能的调节剂,对肿瘤学领域产生了重要影响,并已被建议作为癌症预后和治疗的潜在生物标志物[7, 8]。

近年来,在特定生理和病理过程中研究microRNA作用和机制进展迅速,尤其在肿瘤发生、发展过程中,microRNA广泛参与肿瘤发生、肿瘤生物学特性、肿瘤微环境改变、肿瘤相关免疫细胞驯化以及肿瘤干细胞病理等各个过程,并能在肿瘤早期诊断、预后判断和干预治疗过程中具有重要作用[9]。

机器学习(machine learning)是当今发展最快的技术领域之一,处于计算机科学和统计学的交叉点,也是人工智能和数据科学的核心。机器学习的最新进展受到新型学习算法和理论的发展、在线数据的广泛可用性和低成本计算的持续推动。数据密集型机器学习方法的采用遍及科学、技术和商业领域,从而在各行各业中做出更多基于证据的决策[10]。

高维数据中存在的大量冗余和无关特征通常是众多机器学习任务的负担,给机器学习带来了巨大的挑战。特征选择(feature selection)是为了解决高维度数据计算问题而衍生的,过去几年间,在机器学习或模式识别的应用中,开发了多种特征选择方法,通过剔除冗余和无关特征,从而提高机器学习算法的泛化性能、预测性能和运行效率,并且有助于更好的理解数据,减少维数灾难的影响[11]。特征选择方法通常分为3类:过滤器(filter method)、包裹器(wrapper method)和嵌入器(embedded method)。过滤器方法在学习算法之前选择特征子集。包裹器方法利用学习算法作为拟合方法,并搜索所有特征子集中的空间中的最佳子集[12]。除了过滤器和包裹器之外,嵌入式方法还将特征选择作为训练过程的一部分,并且从学习模型中获取特征相关性[13]。过滤器方法的优点是由于其简单性和健壮性而容易扩展到非常高的数据集,并且特征选择结果与分类算法无关,只需要执行一次特征选择,就可以使用不同的分类器训练。但是,过滤方法的常见缺点是这类方法忽略了与分类器的交互,并且最常使用的过滤器方法是单变量法,这意味着与其他类型的特征选择方法相比,虽然过滤方法独立于模型假设,但只考虑单个特征与标签的相关性,从而忽略特征之间的依赖性,这有可能影响分类器的分类性能[14, 15]。包裹器方法的优点包括特征子集搜索和模型选择之间的交互,以及具有考虑特征间依赖的能力。而包裹器方法常见的缺点是它们具有比过滤器方法更高的过拟合风险,并且通常计算量相当巨大[16, 17]。

最小冗余和最大相关性(minimum-redundancy maximum-relevancy,mRMR)[18]是一种新型特征选择方法,基于选择过程中的特征相关性和冗余程度,使用相互信息计算相关性。并且基于对其他特征的相互不同来确定特征的冗余程度,其目的是从微阵列数据里的数千个基因中的小型子集选择出能准确分类的表型。使用特征相关性和冗余的方法已经改进并集成在许多其他文献中[19-28]。Mundra等[21]在SVM-RFE中加入包含基于互信息的mRMR过滤器,以最大限度地减少基因冗余。Shreem等[16]使用Relieff和mRMR作为过滤器阶段使特征冗余最小化,并使用包裹了遗传算法的包裹器选择在遗传算法中具有最佳效果的特征子集。

Xu等[29]提出了一种基于过滤器的无监督的基因选择方法,通过应用扩散映射解决多维问题,并使用马尔可夫矩阵的特征函数作为原始数据集上的坐标系,以便观察有效数据的几何表示。最后,将神经网络聚类理论,fuzzy ART应用于所得数据以产生癌症样本的簇。从而在稳定、快速和自组织方式中学习任意输入模式,并有效分类癌症样本。

Helleputte 等[30]通过在要选择的维度上添加部分监督,扩展了先前基于嵌入的特征选择的工作。这种嵌入式零范数最小化逼近(approximation of the zero-norm minimization,AROM)方法,是基于正则化线性模型提出的,并对先验假设更相关的特征使用部分监督。Liu等[31]引入半无监督的基因选择,可以在无先验类信息的情况下,找到更小且信息量更大的基因子集。作者首先利用谱双聚类算法获得最佳的两类划分特征向量来预选基因。然后,根据基因与最佳特征向量的相似度,选择最佳基因组合。

在中国,基于人口研究表明,肝细胞癌的发病率和死亡率在所有的癌症类型里均排在第2位,并且其发病率近似死亡率[32, 33]。癌症的早期诊断可以显著提高癌患者的存活率。microRNA直接影响癌基因或者抑癌基因,从而影响肿瘤的发生和转移。本文通过机器学习方法,在复杂高维的microRNA分子特征中,选择维度较小和精度较高的特征子集,有效分类癌症。在现有使用microRNA分子数据作为特征的癌症分类任务中,都只使用了microRNA表达量数据作为唯一的特征。这可能是这类癌症分类任务中,分类准确率和模型鲁棒性提升的一个重要瓶颈。miRNA编辑对肿瘤学领域产生了重要的影响,并已被建议作为癌症预后和治疗的潜在生物标志物[7, 8]。本文使用MiRME程序,从肝组织原始microRNA序列,计算出microRNA的表达量、编辑水平以及编辑后表达量作为特征[34]。值得一提的是,本文先把microRNA编辑水平和microRNA编辑后表达量这两种特征应用于癌症分类问题,提供了在此问题中的一个全新思路。在上述现有方法中,单独使用过滤器或无监督方法的特征选择算法,在选择特征子集时,虽然通常计算量较小、拓展能力较强,但是一定程度上不能有效地考虑到特征间的相关关系,而单独使用包裹器方法的特征选择算法,虽可以考虑到特征间的相关关系,但在高维数据集中,通常计算量巨大。

本文提出了1个两阶段的特征选择方法SC-BPSO,融合了过滤器和包裹器。首先,基于Spearman相关系数、卡方独立检验,设计了一个新的特征选择方法SC过滤器。通过组合SC过滤器和基于二进制粒子群算法(binary particle swarm optimization,BPSO)的包裹器方法来实现两阶段的特征选择算法。BPSO,当与学习算法结合时,是一个成功的包裹器方法,但计算量相当巨大。因此,过滤器方法和BPSO的组合可能是一种有效的特征选择方案。在SC-BPSO算法的第1阶段,过滤器方法应用于查找具有一定相关性的特征候选集。在第2阶段,使用BPSO包裹器直接从候选集中选择最有利于分类器分类的特征子集。最后,使用4种不同的分类器留一法交叉验证得出分类结果。实验研究结果表明,SC-BPSO特征选择方法对基于microRNA特征的肝细胞癌分类问题相当有效。

1 材料与方法

1.1 数据材料

为了获得健康肝和肝细胞癌组织中的microRNA的表达量、编辑水平、编辑后表达量这3类特征,本文使用了先前报道过的130个肝组织样本microRNA序列数据(64肝细胞癌,66正常肝组织)。这些数据来自NCBI(美国国家生物信息中心)SRA数据库和EBI(欧洲生物信息研究所)的13个数据集,分别使用序列号(SRP229949, E-GEOD-21279, E-GEOD-46622, E-GEOD-57381, E-GEOD-62010, ERP012854, SRP049590, SRP091391, SRP108560, SRP117237, SRP013565, SRP149118, SRP136469)下载,并经过FastQC对测序数据进行质量评估,筛选去除低质量测序样本后获得。

1.2 方法

在数据预处理阶段,使用MiRME[34]程序从肝组织原始microRNA序列中,计算出microRNA的表达量、编辑水平以及编辑后表达量作为特征,共从原始microRNA序列数据集中提取出8 434个特征(其中microRNA表达量特征2 568个,编辑后microRNA表达量特征1 667个,编辑水平特征4 199个)。

在分类前的特征选择阶段,融合过滤器方法和包裹器方法,设计了一个2阶段的特征选择算法SC-BPSO。在第1阶段的过滤器方法中,使用SC过滤器,降低输入到包裹器的候选特征子集维度。在第2阶段,再使用基于BPSO的包裹器,选出最终的特征子集。BPSO算法是一种成功的包裹器方法,但计算量相当巨大,因此,首先使用过滤器方法消除无关特征,再与BPSO包裹器组合会是一种有效的特征选择方案。所提出的特征选择算法可以进行2个阶段,算法流程正如Fig.1所示,详细步骤描述如下:在第1阶段,过滤器用于过滤肝细胞癌microRNA原始分类数据中的噪声和无关的特征。首先使用SC过滤器中的评价函数,在原始训练集中,通过评估特征对正确类标签的相关性,对每个特征打分并排序,去除掉低相关性特征。通过这种方式,可以消除无关特征,降低输入到包裹器的候选特征子集维度,这样可以减少无关特征对包裹器方法的干扰,同时缩短包裹器算法的运行时间。但是在此阶段,过滤器无法消除冗余特征,并考虑特征之间的依赖性。冗余和依赖性在第2阶段被BPSO考虑。在第2阶段,BPSO和分类器一起工作以选择高度辨别的特征。结果,SC-BPSO可以组合过滤器和包裹器方法的优点,并选择与某些特定分类器相关的高质量子集。

Fig.1 Flow Chart of SC-BPSO feature selection method Candidate feature subset: features selected by SC filter in first stage, then imported into BPSO wrapper in second stage; Final feature subset: features selected from the original feature set after SC-BPSO feature selection

(1)

(2)

(3)

特征选择算法第2阶段。粒子群算法(particle swarm optimization, PSO)是一种基于种群的搜索技术,由 Kennedy 和 Eberhart[38]首次提出,受到鸟群捕食的社会行为启发。PSO方法近年来被集成在许多其他方法中[39-44]。PSO基于群体智能,非常适合组合优化问题。其中,优化面具有许多局部最优解,并且通过速度函数实现了从一个解集到另一个解集的移动。假设有1个d维的搜索空间,那么第i 个粒子可以表示为Xi= (xi,1, xi,2, …, xi,d), 第i个粒子的速度:Vi= (vi,1, vi,2, …, vi,d)。最佳位置:Pi= (pi,1, pi,2, …, pi,d)。群体中最佳粒子:Pg= (pg,1, pg,2, …, pg,d)。每个粒子根据每次迭代时的最佳位置和最佳速度更新其位置和速度。PSO是针对连续问题提出的,其后被扩展用来解决离散问题,PSO的离散版本称为二进制粒子群算法(binary particle swarm optimal,BPSO),用来解决包括特征选择[45-48]和故障诊断[49]在内的各种问题[50, 51]。在BPSO中,每一个粒子都限制在0和1的状态空间中移动,就概率的变化而言,粒子将处于一种1状态或0状态。如果粒子的速度较高,算法则更有可能将其置为 1状态,而较低速度的粒子则倾向于被置为 0状态。应用等式(4)sigmoid函数将速度从连续空间转换为概率空间:

(4)

对于每次迭代t,粒子速度由等式(5)计算:

(5)

等式(5)中w是惯性权重,用于平衡全局搜索和局部搜索,较大的惯性权重有利于全局搜索,而较小的惯性权重有利于局部搜索。参数 c1 和 c2 是加速度系数,分别代表局部最优方向和全局最优方向对粒子速度的影响大小。参数 r1 和 r2 是 [0, 1] 范围内的随机数。粒子的速度被限制为最大速度 vmax,它决定了每个粒子在解空间中允许采取的步长。如果 vmax太小,粒子可能无法在局部良好区域之外充分探索。他们可能会陷入局部最优。另一方面,如果vmax太高,粒子可能会飞过全局最优值。使用等式(6)更新粒子新的位置:

(6)

适应度函数的设计对于BPSO包裹器方法至关重要,BPSO算法通过适应度函数评估每个特征子集,本文使用分类器准确率作为适应度函数。实验使用的BPSO算法参数正如Table 1所示,BPSO特征选择算法流程正如Table 2 所示。

Table 1 Interpretation of parameters of BPSO algorithm

Table 2 BPSO algorithm flow in feature selection

特征选择完成后,使用4种不同的分类器(随机森林、SVM、决策树和KNN)进行分类,区分正常样本和肿瘤样本。

1.3 实验设置

所有实验都在Intel E7处理器,2TB内存计算服务器上运行得出。服务器操作系统为CentOS 7,算法使用Python 3.7.9版本实现。BPSO算法使用PySwarm包[52]实现。

所有分类算法均使用留一法交叉验证评估分类器的性能。

2 结果

本文使用实验来验证SC-BPSO,并使用相同的肝细胞癌数据集与其他3种特征选择算法比较。

2.1 原始特征集预测结果

首先,在未特征选择的情况下,在肝细胞癌microRNA原始特征集(130个样本,8 434个特征)中,分别使用SVM、KNN、RandomForest、C4.5四种分类器进行分类。分类准确率结果如Fig.2(A)所示,RandomForest分类器取得了最高分类精度89.2%。为了证明第1阶段SC过滤器消除无关特征时的有效性,本文单独使用SC过滤器选择特征,并使用分类器分类,不同维度特征子集的分类结果见Fig.2B。

Fig.2 The classification accuracy of feature subsets with different dimensions selected by the feature selection algorithm (A) is the accuracy of the original feature set classified by four different classifiers (Randomforest, SVM, Decisiontree, KNN classifier); (B), (C), (D) and (F) are the accuracy of features with different sizes selected from original feature, selected by SC filter, information gain filter, information gain ratio filter, and SC-BPSO method respectively, classified by four different classifiers above. In addition, the feature subset in (F) is selected after 1000 iterations in SC-BPSO wrapper stage; the feature subset in (E) is selected after 1000 iterations of the BPSO wrapper and classified by four different classifiers above

2.2 SC过滤器与现有过滤器方法相比,特征子集预测效果提升明显

进一步使用基于Spearman相关系数和卡方独立检验设计的SC过滤器(Spearman-Chi2, SC Filter)评估每个特征对标签的相关性,分别取出前k*50个最相关特征生成特征子集,并使用上述4种分类器分类,不同k*50值特征子集的分类精度结果正如Fig.2B所示。由Fig.2B显示,随着低相关性特征的依次删除,4种不同的分类器的分类准确率整体呈现出逐步升高的趋势,其主要因为不相关特征的消除提高了分类器的性能;当分类准确率攀升到峰值时,又呈现了下降趋势,其主要是由于有效的和高相关性的特征被删除,降低了不同分类器的性能。结果表明,本文提出的SC过滤器能有效地消除与分类标签不相关或低相关的特征,从而提高了分类器的性能。

为了与其他过滤器比较以证明SC过滤器的有效性,本文使用信息增益过滤器(IG Filter)和信息增益率过滤器(IGR Filter)。对这2种过滤器方法选出的特征子集进行分类,获得分类结果,不同k值的分类精度结果正如Fig.2C,D)所示。对于随机森林分类和C4.5分类器,由SC过滤器选择出的子集分别具有最高的平均分类精度91.4%和86.3%,结果正如Table 3 所示。

Table 3 Average accuracy of four feature selection algorithms

与另外2种过滤器方法相比,对于随机森林分类器,由SC过滤器选择出的子集具有最佳的分类精度,96.1%。结果正如Table 4所示。上述所有特征选择算法取得的最佳分类精度,以及在最佳分类精度时的特征子集维度数据正如Table 4所示,对于随机森林分类器,SC-BPSO算法与另外3种特征选择算法相比,取得了最佳分类准确率98.4%的同时,找到了维度最小的特征子集;对于SVM、C4.5、KNN分类器,SC-BPSO算法选出的特征子集,在取得了相当高的分类准确率的同时,又保证了较小的特征子集维度。

Table 4 The best accuracy of four feature selection algorithms with minimum feature subset dimension

与BPSO算法相比,对于Table 4所示的4种分类器,SC-BPSO方法搜索到维度远远小于BPSO算法的特征子集的同时,最佳分类准确率仍大于或等于BPSO算法。

2.3 SC-BPSO算法与现有方法相比,特征子集预测效果提升明显

最后,本文使用BPSO包裹器分别包裹随机森林、SVM、C4.5、KNN4种分类算法,并且使用对应分类算法的分类准确度作为BPSO算法的适应度函数,迭代1 000次后,得出特征子集,再使用对应分类器分类对应特征子集得出最后的分类结果,结果正如Fig.2F所示。使用上述相同配置,对原始8 434维特征集使用BPSO算法,选出特征子集,分类结果症如Fig.2E所示。

为了展示SC-BPSO算法选出的特征,本文使用SC-BPSO算法在第1阶段使用SC过滤器选出前20个与标签最相关的特征作为候选特征子集,在第2阶段使用包裹决策树分类器的BPSO包裹器选出了最终的4个特征为最佳特征子集,结果正如Table 5所示。同时,本文提供了模型下载:https://github.com/NanZhouNZ/SC-BPSO。

Table 5 SC-BPSO candidate feature subset and final feature subset

2.4 SC-BPSO算法与现有方法相比,特征子集生成的模型性能良好且稳定

取上述所有特征选择算法在不同分类器下的最佳特征子集分类,绘制ROC曲线结果正如Fig.3所示。结果显示,SC-BPSO算法在SVM和随机森林分类器上取得了最佳的AUC值,分别为0.9563和0.9842。在其他分类器中,也取得了较高的AUC值。这表明,由SC-BPSO算法选出的特征子集,使用分类算法生成的模型性能良好且稳定。模型下载:https://github.com/NanZhouNZ/SC-BPSO。

Fig.3 ROC curves and AUC values of different feature selection algorithms with 4 classifiers In (A), we used four classifiers (Randomforest, SVM, Decisiontree, KNN classifier) to classify normal samples and HCC samples in the original feature set and obtain the ROC curve and AUC value; in (B), (C), (D),(E) and (F), we used five different feature selection methods (SC filter, information gain filter, information gain ratio filter, BPSO wrapper, SC-BPSO) to select feature subsets of different dimensions on the original feature set. For each feature selection method, take the feature subset with the best classification accuracy, and use four classifiers mentioned in (A) to classify normal samples and HCC samples and obtain the ROC curve and AUC value in this case

3 讨论

找出分类数据集的最佳特征子集是癌症分类问题中一个重要方向。本文基于Spearman、卡方独立检验设计了一种过滤器方法SC过滤器。本文通过组合SC过滤器和基于二进制粒子群的包裹器方法,介绍了一种新型特征选择方法SC-BPSO,并应用在高维数据的癌症分类问题中,区分正常样本和肿瘤样本。新方法是一个2阶段的过程,首先使用SC过滤器选择一个去除了低相关性的候选特征子集,然后在候选子集中,使用BPSO搜索策略和学习算法准确率为适应度函数的包裹器方法,选择出最终的特征。结果表明,本研究提出的SC-BPSO算法整体上优于信息增益过滤器、信息增益率过滤器和BPSO包裹器。此外,通过实验并与其他特征选择算法比较,证明了SC-BPSO算法的有效性,在预处理后的高维肝组织microRNA数据中,所选出的特征子集可以提升癌症分类的准确度,并且具有较小的维度,这对于癌症分类问题可能具有重要意义。

由于本文提出的SC-BPSO算法在SC过滤器阶段忽略了特征之间的关系对分类标签的影响,因此,输入到BPSO算法的候选特征子集可能会误删部分低相关性,但与其它特征具有一定关系的特征向量,这可能会影响最终选出的特征子集并影响到分类结果。下一步,我们将研究在癌症分类问题中,特征间的关系对标签的影响,避免输入到包裹器候选特征子集可能被误删具有一定特征间相关性的关键特征向量。

猜你喜欢

子集特征选择分类器
分类器集成综述
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
学贯中西(6):阐述ML分类器的工作流程
高一上学年期末综合演练
K5;5; p 的点可区别的 IE-全染色(p ?2 028)
基于AdaBoost算法的在线连续极限学习机集成算法
基于智能优化算法选择特征的网络入侵检测
故障诊断中的数据建模与特征选择
reliefF算法在数据发布隐私保护中的应用研究
一种多特征融合的中文微博评价对象提取方法