基于机器学习的拉曼光谱生物化学分析检测研究
2023-01-05何建春夏茂宁
何建春,夏茂宁,赵 倩
(1.重庆市大足区人民医院,重庆 402360;2.四川轻化工大学,四川 自贡 643000)
HBV血清是检测患者是否感染HBV的鉴定标准,目前已有学者表明采用醋酸纤维素膜与料银纳米颗粒SERS相结合的简单方法进行血清蛋白分离和生化分析,其中银纳米颗粒是通过使用硝酸盐和盐酸羟胺制作而成的,加入银纳米颗粒可以增强蛋白质拉曼信号,另外,醋酸纤维素膜除了能除去蛋白质以外,还能除去其他各种化学成分,为血清检测提供了一种独特的蛋白检测手段。进一步提高HBV血清的识别度。同时醋酸纤维素膜与银纳米颗粒可以与血清中的氨基酸、维生素、无机盐、葡萄糖和蛋白质等无机、有机混合物发生一定反应,进一步促进血清检测效率。
目前对血清检测通常采用拉曼光谱,而拉曼光谱分析法具有非接触、速度快以及无损的优点[1-3],近年来拉曼光谱分析成为有机化学、材料科学、生物医学等研究领域的研究热点问题[4-5]。拉曼光谱进行生物样品检测时,样品无需进行前置处理并且样品用量少。由于拉曼光谱资料具有特征峰多、数据维数大等缺陷,因此能够获得较好的生物样本资料;拉曼光谱对生物探测的准确性有直接的影响。为了提高HBV血清检测的精度,降低拉曼光谱的冗余信息和特征峰值数量,提出一种基于连续投影法的拉曼光谱特征波长筛选和灰狼优化算法优化极限学习机[6]的HBV血清检测模型。在醋酸纤维素膜与银纳米颗粒对血清进行分离的基础上,针对HBV血清拉曼光谱数据具有维度高、非线性强的特点,将拉曼光谱、连续投影法、主组分法等多种光谱的特征筛查进行了比较,并初步建立了一种用于 HBV的荧光光谱的光谱特性波长选择。考虑到 ELM模式的参数设定会对 ELM模式进行性能的影响,采用 GWO方法进行 ELM模型的参数优选,并采用GWO-ELM方法进行了基于GWO-ELM的 HBV病毒抗体的识别。与PSO-ELM、GA-ELM和ELM相比,GWO-ELM的HBV血清检测模型的识别精度最高,为HBV血清检测提供了新的方法。
1 材料和方法
1.1 样本材料
银纳米颗粒是通过使用硝酸盐和盐酸羟胺生产的。首先将10 mL盐酸羟胺溶液(6×10-2mol/L)与9 mL氢氧化钠溶液(10-2mol/L),并将混合物加入到180 mL硝酸银(1.11×10-3mol/L)中,然后将混合溶液在室温下连续搅拌15 min。银纳米颗粒的尺寸遵循平均直径为45 nm,标准偏差为8 nm。
为验证本文方法进行拉曼光谱生物医学检测的效果,选取2例 HBV病人的血样和2例正常人群的血样进行检测。10 μL的血清用吸管在醋酸纤维薄膜上进行标记;1 min后,该标本已被膜完全吸附。之后,将包含血清的醋酸酯薄膜的部位切开,并在包含10 mL冰乙酸、90 mL体积分数95%酒精和100 mL超级纯水的缓冲剂中清洗,以除去包含在血浆中的其他成分(诸如电解质和某些外来物质),并且将血浆蛋白质仅保留在醋酸纤维薄膜中。随后,将仅含有血清蛋白的醋酸纤维素膜切割并收集在管中,并向管中加入60 μL乙酸,目的是将醋酸纤维素膜的片段溶解到透明溶液中。之后,将 140 μL 胶体银纳米颗粒加入试管中。将管置于37 ℃温水中,将混合物搅拌30 min。在此过程中,絮状沉淀物(溶解的膜碎片)出现在管中。离心后(1 000 r/min,10 min),收集 10 μL 上清液(蛋白质-银纳米颗粒混合物)并转移到铝板上进行拉曼光谱测量,选取每个样品的中心位置,分别测试得到50组拉曼光谱数据。首先使用离心机提取全血的血清,然后在测试晶片上用棉花蘸取血液样本,待血清风干之后进行检测。用拉曼光谱测定血清,用最高峰值的拉曼光谱进行规范化处理,得到拉曼光谱图。在图1、图2及图3、图4分别为2个正常人的血清和2个B型感染人的血清。
图1 测试区域和光谱图Fig.1 Test area and spectrogram
图2 测试区域和光谱图 Fig.2 Test area and spectrogram
图3 测试区域和光谱图Fig.3 Test area and spectrogram
图4 测试区域和光谱图Fig.4 Test area and spectrogram
1.2 GWO算法
标准的GWO算法包括3种行为:包围行为、捕猎行为以及攻击行为[7]。
1.2.1包围行为
这一阶段,按照式(1)和(2)式对灰狼进行围捕:
(1)
(2)
1.2.2捕猎行为
α、β、δ分别为最优解、第2解和第3解,则α、β、δ根据式(3)~式(5)可以重新定位[8]:
(3)
(4)
(5)
(6)
(7)
(8)
(9)
1.2.3攻击行为
该阶段,狼群攻击捕获猎物。当|A|≤1时,狼接近目标(X*,Y*)并将目标锁定在目标身上;当|A|>1时,狼从他们的捕食范围内移开,去找新的目标。
2 HBV血清GWO-ELM检测模型
2.1 适应度函数
ELM模型的输入层权重值与隐含层偏置值初始值是随机产生,通过反复训练,不断调整逼近期望输出。为改进ELM模型初始权值和隐含层偏置对检测结果的影响,提高ELM模型的性能,本文采用GWO算法优化ELM模型参数,将平均误差作为适方函数的选取[9]:
(10)
式中:Ti和Oi是第一采样的真实值和期望值;k用于培训的样本数目;wmin、wmax分别为输入权值w的取值上限和下限[10-12];bmin、bmax分别为隐含层偏置b的取值上限和下限。
2.2 算法流程
基于GWO改进ELM模型的血清检测的算法流程如下。
Step1:读取乙肝血清近红外拉曼光谱数据,并过程进行标准化,同时对测试数据进行分割:
(11)
式中:拉曼光谱的最大值和最小值是xmax和xmin;LB和UB为标准化后的Raman谱的最大值和最小值,取LB=-1,UB=1;x和xnew为原始拉曼光谱数据与归一化处理之后的拉曼光谱数据;
Step2:固定 GWO的方法主要包括:最大迭代数Tmax;搜索维D;群体规模N;w和b的搜寻区间是[wmin,wmax]和[bmin,bmax]。将灰狼群的初始群体进行随机初始化,各群体的位置与ELM模式的输入权重及隐含层偏差的参数结合(w,b);
Step3:每个灰狼种的适应程度由式(10)来计算[13];
Step4:根据适应程度的不同,灰狼的数量被分为2类α、β、δ和ω;
Step5:按照式(3)~式(5)更新灰狼种群个体的位置;
Step6:计算灰狼群中的更新点的适应程度f(w,b)new,并与上一代最优适应度f(w,b)best相比较,如果f(w,b)new>f(w,b)best,则该灰狼种群个体适应度f(w,b)new替换掉f(w,b)best,并且保存这一群体的个体的地理分布;否则,保留f(w,b)best;
Step7:判定方法结束条件,如果目前的迭代数为t>Tmax,则该方法结束,并给出最优化的最优化位置,也就是ELM的最佳参数(w*,b*)。相反,则回到Step3到Step6的迭代式;
Step8:运用ELM模型的最优参数组合(w*,b*)对测试数据进行血清检测[14]。
3 结果分析
3.1 建模流程
基于GWO改进ELM模型的HBV血清检测的建模流程可以描述:
(1)选择血清样本;
(2)采集HBV者和正常人的拉曼光谱;
(3)拉曼光谱数据预处理;
(4)建立HBV血清GWO-ELM检测模型;
(5)HBV血清检测模型的验证。
3.2 数据预处理技术
拉曼光谱的预处理技术主要有:一阶导数、二阶导数、多元散射以及标准化的正态变化法[15]。原始数据在表1中显示了各种预加工模式下的模型探测。
表1 不同预处理方式的建模检测结果对比Tab.1 Comparison of modeling test results with different pretreatment methods
由表1可知,使用多重散射修正(MSC)进行模型检验是最佳的[16]。故本文使用 MSC的拉曼光谱化学分析进行了预处理,建模方法采用ELM模型。
3.3 有效特征波长选择
HBV拉曼光谱资料的特征:信号峰多,数据多,HBV血清检测模型建立之前需要先对拉曼光谱数据进行特征波长选择。文中分别运用全波段(FS)、连续投影法[17-18](SPA)和主成分分析(PCA)进行乙肝血清近红外拉曼光谱有效特征波长选择。在选择了有效特性波长之后,模型探测的结果比较如下。由表2可知,采用持续投射方法进行的 HBV血清模型试验效果最佳。
表2 波长选择结果对比Tab.2 Comparison of wavelength selection results
由表3可知,第1个主成分(PC1)的贡献率为64.84%;第2个主成分(PC2)的贡献率为26.24%,前2个主成分累计贡献率达到了91.07%。
表3 PCA前7个主成分的贡献率和累计贡献率Tab.3 Contribution rate and cumulative contribution rate of the first seven principal components of PCA
从图5可以看出,主成分数为8时,HBV血清检测的正确率最高,均方根误差最小。
图5 SPA有效特征波长选择结果Fig.5 SPA effective characteristic wavelength selection results
3.4 不同模型对比
为了验证GWO-ELM模型的有效性和可靠性,将GWO-ELM与PSO-ELM、GA-ELM和ELM模型进行对比[19]。ELM模型的激活函数为sig函数,为确定隐层节点数,初始隐层节点数为1时,其不断增加,直到隐层节点数为50;不同隐层节点数的HBV血清检测准确率如图6所示。
图6 隐层节点数与准确率关系图Fig.6 Relationship between number of hidden layer nodes and accuracy
从图6可以看出,SPA-ELM模型的隐层节点数为30时,HBV血清检测的准确率最高,故文中ELM模型的隐层节点数设定为30。在表4中给出了各种模式的校正集合和预报集合的评估准确率。
由表4可知,在校正集和预测集上,GWO-ELM的准确率分别为92.02%和81.69%,优于PSO-ELM的90.80%和78.87%;GA-ELM的89.57%和76.06%以及ELM的88.96%和74.65%。与ELM模型相比,GWO-ELM的HBV血清检测的准确率分别提高了3.06%和7.04%,说明GWO-ELM有效提高了HBV血清检测的精度。
表4 不同模型评价结果Tab.4 Evaluation results of different models
为了进一步说明GWO-ELM对HBV血清检测的有效性,将GWO-ELM与随机森林回归(RFR)、网格搜索优化随机森林回归(Grid-RFR)和粒子群优化随机森林回归(PSO-RFR)进行对比,对比结果如表5所示。
表5 不同算法HBV血清检测结果Tab.5 HBV serum detection results of different algorithms
由表5可知,在校正集和测试集上,GWO-ELM模型HBV血清检测的准确率最高。在评价指标准确率、精准率、召回率和Fscore4个评价指标上,GWO-ELM均优于PSO-RFR模型、Grid-RFR模型和RFR模型,从而验证了GWO-ELM进行HBV血清检测的有效性和可靠性,为HBV血清检测提供了新的方法。
4 讨论
拉曼光谱技术是一种无创、无损的光学工具,可用于通过激光激发生物标本的振动和旋转光谱信息来研究生物分子的光谱分布。血清拉曼光谱分析已被用于检测核酸,蛋白质和脂质的存在。拉曼光谱的形状和趋势可能有助于识别这些分子成分的变化。一些光谱指纹可能与对疾病诊断和分类有用的特定生物标志物相关联。早期研究还表明,使用血清拉曼光谱分析诊断HBV可能是可行的。本研究分析了2例 HBV病人的血样和2例正常人群的血样进行拉曼光谱检测。分别运用全波段(FS)、连续投影法(SPA)和主成分分析(PCA)进行HBV血清近红外拉曼光谱有效特征波长选择。从模型探测的结果可知,采用连续投射方法进行的 HBV血清模型试验效果最佳。机器学习技术已被用于分析高维拉曼光谱数据。且先前的研究表明,在识别性能方面,SPA算法优于其他传统分类算法,例如FS,PCA等。
通过将ELM-GWO与优化方法集成,可以实现最佳的输入权重和隐藏层偏差,从而保证最佳的ELM/GWO性能,从而有效识别HBV血清。极限学习机(ELM)是近年来提出的一种新算法,它基于单隐层前馈神经网络(SLFN),解决了神经网络中隐含层数难以确定的问题,且ELM具有学习速度更快,泛化能力好,产生独特的最优解等特点。因此,ELM最受欢迎的改进之一是灰狼优化-极限学习机(GWO-ELM),其中GWO集成到ELM中,以获得最佳的输入权重和偏差。GWO是通过研究灰狼的狩猎行为而建立的,其概念简单,易于实现,只需要很少的编码行,允许许多人利用它。与其他进化算法相比,GWO在调节参数方面具有更高的计算效率。这种整合 (GWO-ELM) 的有效性已在本文中所证实,该方法可以有效地改善 HBV的血清学诊断的正确性。
5 结语
为了提高HBV血清检测的精度,基于连续投射技术的特点波长筛选和灰狼优化算法对极限学习机的血清检测模式的改进。为提高ELM模型的性能,运用GWO算法优化选择ELM模型的输入权值和隐含层偏置,本文介绍了一种基于GWO-ELM技术的连续投射技术进行特征波长筛选的HBV血清学研究。与PSO-ELM、GA-ELM和ELM相比,利用GWO-ELM技术建立的 HBV血清检测方法能有效地改善 HBV的血清学诊断的正确性,为HBV血清检测提供了新的方法。