APP下载

面向生物医学检测的拉曼光谱图像机器学习算法研究

2021-09-03于铠铭包晓栋李备洪喜刘景鑫

中国医疗设备 2021年8期
关键词:曼光谱生物医学分类

于铠铭,包晓栋,李备,洪喜,刘景鑫

1.吉林大学中日联谊医院 a.手外科;b.医学影像工程中心;c.放射科,吉林 长春 130033;2.长春长光辰英生物科学仪器有限公司,吉林 长春 130033;3.中国科学院 长春光学精密机械与物理研究所,吉林 长春 130033

引言

近年来,将拉曼光谱分析用于生物医学检测成为新的研究热点,特别是新冠疫情出现后,由于核酸检测对硬件和人员要求较高,一般医院难以完成。因此,建立便捷快速的创新检测方法对疫情防控具有重要意义,采用拉曼光谱进行快速生物医学检测成为国内外科学家探索的新方向。

拉曼光谱分析法基于拉曼散射效应,具有快速、无损、非接触的优势[1-3],已在有机化学、高分子材料、材料科学等研究领域应用多年[4-5]。但是由于拉曼光谱数据采集处理分析时间太长,因此在医学检测领域发展缓慢。近年来,随着光学技术和计算机技术的发展,大大缩短了拉曼光谱的采集处理时间,使它应用于生物医学检测领域成为可能[6-8]。使用拉曼光谱检测时,生物样品用量很少,且无须前置处理,大大降低了操作难度,保护了样本原始性,因而可以采集到生物样品最真实的信息[9-11]。另外,拉曼光谱对于研究生物大分子的结构与性能,单细胞的核酸、蛋白质、脂质含量信息[12]以及细胞分子结构实时变化的信息等都具有显著优势[13-14]。

在使用拉曼光谱进行生物医学检测时,存在数据量大、数据维度高、光谱特征峰值多等问题。为此,需要通过计算机对数据进行降维和聚类分析处理,最终可以达到生物医学检测的效果[15-18]。

1 方法

由于生物检测具有复杂的环境和多样的生物,使用无监督学习在复杂乙肝血清环境中进行检测和分析,基于t分布随机近邻嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)[19]非线性拉曼光谱数据压缩,将高维拉曼光谱投影到低维平面,实现在低维空间的可视化聚类。

使用K最近邻算法(K-Nearest Neighbor,KNN)[20],广泛适用于增量模型下的模式识别领域。它是一种在线学习技术,新学习样本可以直接加入训练好的训练集,而不需要重新进行学习训练从而提高了模型训练速度,且分类准确度高,对异常值的噪声有较高的容忍度,对复杂血清样品鉴别有着天生的优势。

1.1 t-SNE聚类算法

SNE算法可以保持数据在进行降维处理前后各数据点间远近关系的概率,从而可以保持降维前后的数据内部结构。SNE算法的基本思想:① 利用复杂度因子,选取近邻样本;② 用概率的形式将近邻样本间的欧氏距离转化成样本相似度;③ 利用相对熵目标函数算得降维后的数据表达。其中,xi和xj间的相似度由条件概率表达,即为xi选取xj作为近邻的概率;其对应的嵌入子空间yi和yj间的相似度使用相似的表达。

应用中发现,原算法存在着低维度数据拥挤和价值方程优化困难的问题,因而在原SNE算法基础上又提出了基于t分布的t-SNE算法。t-SNE算法较原算法的优点:① xi和xj间的相似度由联合概率表达,联合概率具有对称性;② 嵌入子空间yi和yj间的相似度则用t分布表达。

设X={x1,x2,…,xn},其中xi为d维向量,联合概率pij表示数据xi和xj之间的相似度,即原空间中xi选取xj作为邻近的概率,即式(1):

其中,λ是高斯函数的方差,pij=0数据间相似度概率总和为1。

取n个r维向量Y={y1,y2,…,yn}(r远小于d),作为X对应的子空间数据,利用t分布qij表示子空间yi和yj间的相似度,即子空间数据间的概率,即式(2):

t-SNE通过最小化目标函数,即式(3):

获取最佳子空间的向量表达,即最小化原空间和子空间两个概率分布的相对熵,其本质就是最大限度地匹配pij和qij,再利用梯度下降法计算式(3)最优值。

求解时,最优化过程中存在振荡现象,为了改善这个问题,并加快最优化过程,在式(3)上添加一个动量项,从而有了带动量的梯度,见式(4):

1.2 KNN分类算法

在N个训练样本中,找到测试样本x的k个近邻。设数据集中有m个训练样本,并有c个类别,即{ω1,…,ωc},测试样本为x。则KNN算法可描述为:在m个训练样本中找到x的k个邻域,其中x的k个近邻中属于类别wi的样本数户分别为k1,k2,…,kn则判别函数见式(5):

决策规则为式(6):

则决策x∈ωj。

KNN的思想是给出一个样本集合和一个合适的距离度量方式,对任意的一个测试样本,找到离它最近的k个样本,根据这k个样本的类别统计信息决定此测试样本的类别归属问题,即将待分样本x归类为与其k个近邻中出现次数最多的类别。KNN算法的基本要素为:k值,距离度量方式和分类的决策规则。

KNN分类步骤:① 准备训练样本集X,其中包含n个训练样本,根据具体要求选择一个合适的距离度量方式,用dis(xa,xb)表示样本集中的xa、xb这两点的距离;② 对于测试样本x,利用距离度量公式计算测试样本x与n个样本的距离,得到距离集合Dis,其中Dis={dis(x,x1),dis(x,x1),…,dis(x,xn),};③ 对距离集合进行排序,从中选择最小的k个元素,从而得到k个元素对应的k个样本;④ 对这k个样本所属类别进行统计,用投票的方式得到最终分类结果。

2 结果

为验证本研究中提出的拉曼光谱数据处理方法,我们使用乙肝感染血清及正常人血清进行了实验验证。验证实验使用了2位乙肝患者血清和2位正常人血清。每个样品取中心位置,各测试50组拉曼数据。样品前置处理使用离心取全血的血清(其中每组各有一份样品有轻微溶血现象,血清偏红色,有血红素干扰);将血清用棉签点样于检测芯片上,风干后待测。在对血清进行拉曼光谱检测后,首先对数据进行预处理,进行宇宙射线、平滑、基线校正处理,再以最高峰为标准对所有光谱进行归一化,生成光谱图。

2.1 拉曼光谱测试结果

经检测,分别得到2位正常人血清拉曼光谱测试区域及光谱图(图1和图2)和2位乙肝患者血清(图3和图4)。

图1 对照-1实验拉曼光谱测试区域及光谱图

图2 对照-2实验拉曼光谱测试区域及光谱图

图3 阳性-1实验拉曼光谱测试区域及光谱图

图4 阳性-2实验拉曼光谱测试区域及光谱图

2.2 聚类算法分析结果

经过t-SNE算法处理后,直接可以得到聚类分析结果图(图5)。从图5中可以看出,阳性组数据与对照组存在明显差异,但对照组数据的类内聚合度较低,组内差异比较大。

图5 聚类分析结果图

2.3 分类算法分析结果

使用KNN分类算法,实验数据进行分类分析,得到分类分析结果图(图6)。从图6中可以看出,基于目前的数据,可以根据拉曼光谱对阳性组与对照组进行区分,验证了拉曼光谱进行生物医学检测可行性及相关算法分析处理检测数据的可行性。

图6 分类分析结果

3 讨论

我们利用机器学习的方法,对拉曼光谱进行生物医学检测的数据进行处理分析,从乙肝感染血清验证实验的结果来看:阳性组与对照组的拉曼光谱图像存在差异,可以进行区分;从验证实验的数据分析来看:对每个样品的数据进行分析,阳性组的2个样品数据的类内聚合度较高,而对照组的2组数据差异较大。由此可见,生物的拉曼光谱图像数据是可以表征生物特性的,t-SNE聚类算法、KNN分类算法等机器学习算法在对生物医学拉曼光谱数据处理方面也是可行的,特别在同类组别的区分上显示出了算法的有效性。

然而,同组内个体间的差异也较为明显,数据结果受样本自身反应变化影响较多,对于此问题,后续工作将从两个方面展开:① 优化样本的采集、制作和保存,保证样本的完整性和统一性;② 项目正式开展后采集更多的样本数据,探究个体差异原因,并根据差异的特点开发相应算法,提高检测准确率。

目前,我们对于拉曼光谱用于生物医学检测的数据处理分析方法研究取得了初步的结果。同时,我们也在尝试把深度学习方法应用到拉曼光谱检测数据的处理中,以求可以更加准确高效地完成生物医疗检测,获得更高的检测结果。后续我们还需要从算法优化、样品制备、检测流程标准化等角度加以优化和完善,通过大量细菌、病毒微生物检测实验分析以提升拉曼光谱在生物医学检测领域的检测范围与检测精度。

将拉曼光谱分析应用到生物医学检测中,可以形成检测细胞、细菌甚至病毒微生物的一种新型快速便捷的检测技术,拉曼光谱也将有希望成为快速检测新型冠状病毒的新方法。

猜你喜欢

曼光谱生物医学分类
刍议“生物医学作为文化”的研究进路——兼论《作为文化的生物医学》
灵长类生物医学前沿探索中的伦理思考
分类算一算
分类讨论求坐标
国外生物医学文献获取的技术工具:述评与启示
数据分析中的分类讨论
基于拉曼光谱的面团冻结过程中水分分布的在线监测
教你一招:数的分类
LED光源在生物医学中的应用分析
探测非透明介质下深层成分的拉曼光谱技术研究