APP下载

基于多个太赫兹时域光谱系统的物质识别方法

2019-06-04徐鸣谦寇天一朱亦鸣

光学仪器 2019年2期
关键词:分类器光谱物质

徐鸣谦,寇天一,彭 滟,朱亦鸣

(上海理工大学 上海市现代光学系统重点实验室,上海 200093)

引 言

近年来,太赫兹(THz)波谱技术已被广泛应用于上千种物质[1-2]的识别方面,并且借助一些算法可达到很高的识别精度[3-5]。然而,这些技术都是基于相同的测量系统,并不适用于处理来源于多个系统的光谱数据。如Liu等[6]与Chen等[7]测量的同一种物质DNT,在幅值、频域范围以及采样间隔上都不一样,这是由不同测量系统的误差造成的,系统误差除了自身设备的参数设置不同,还包括了不可避免的环境因素(如温度、湿度等)。因此,当数据来源复杂时,这些测量方法就不能用于识别物质或者使物质识别的正确率下降。因此,本文提出了一种基于多个太赫兹时域光谱(THz-TDS)系统的物质识别方法。

本文用两套THz-TDS系统测量已知的6种物质的光谱信号,对每个计算得到的吸收系数先作数据预处理, 包括去除基线和噪声以及统一采样频率(维度),再用处理后的光谱数据训练支持向量机(SVM)分类器[8],并选择合适的核函数和SVM参数,最终得到了非常理想的识别结果。

1 太赫兹光谱数据测量

1.1 样品制备

实验中使用由中国科学院提供的6种样品,分别为盐酸多巴胺、对氨基苯甲酸、D-乳糖水合物、肌醇、C4(一种混合物炸药)以及酪氨酸,这些涵盖了生物、化学以及危险品的物质具有一定的代表性。由于纯样品分布密度太大,透射通过的THz信号很弱,从而会影响检测效果。为了稀释样品的分布密度,达到理想的吸收和透射效果,将样品与聚乙烯(PE)粉末按1 ∶10的比例进行混合,并在玛瑙研钵中研磨成细小粉末,采用3 t压力压制成厚度为1 mm直径为10 mm的药片。

1.2 THz-TDS 测量

在实验中,我们分别用来自上海理工大学上海现代光学系统重点实验室(上理工)和上海高晶影像科技有限公司(高晶)的两台THz-TDS测量6种已知样品的THz光谱数据。其中上理工测量系统的光谱分辨率为0.009 THz,信噪比为40000 ∶ 1,有效带宽为0.1~4.0 THz,高晶测量系统的光谱分辨率为0.01 THz, 信噪比为50000 ∶ 1,有效带宽为0.2~1.5 THz。为了保证算法的可靠性,每个系统对每种样品分别在不同时间、温度和湿度下重复测量10次,共得到120组光谱数据。根据Beer-Lambert定律[9],计算出样品的相对吸收系数为

式中:d为样品厚度,lsam(w)为样品信号的功率谱,lref(w)为参考信号(空气)的功率谱。

2 数据预处理

2.1 降噪和去基线

在THz波段,由于固体样本的散射、周围环境的扰动以及空气中的水分都会在一定程度上引起基线漂移和波谱噪声,我们采用小波变换对基线进行校正,并根据多分辨率分析去除高频噪声。其中小波变换的表达式为[10]

式中:φJ(u)为小波母函数;ψj(u)为尺度函数且与φJ(u)正交;CJ为f(u)在第J+1尺度上的分量,即低频部分;dj为f(u)在第j个尺度上的分量(1 ≤j≤J),即高频部分。根据式(2),可以对信号的不同部分和频率进行分析[11]。本文对THz吸收光谱数据进行6尺度正交小波分解,舍去第6尺度下表示基线的低频分量,同时也舍去第1~3尺度下代表噪声信息的高频分量,保留第4~5尺度下代表有用信息的高频分量。图1为上理工系统测量的光谱数据在小波变换前后的对比图,可以发现,在有效带宽0.2~1.5 THz内,基线被有效地去除,处理后的波峰变得更清晰,整体更加平滑,振幅也得到调整。

图1 6 种物质小波变换后的 THz 光谱Fig.1 THz spectrum of six kinds of substance after the wavelet transform

2.2 统一采样频率

在我们建立的SVM分类器中,采用离散的吸收光谱数据作为特征向量。然而本实验中的两套THz-TDS系统的采样频率不相同(上理工测量系统为0.009 THz,高晶测量系统为0.01 THz),这会导致后面算法中的数据维数不同从而使程序发生错误。因此,需要将所有测量系统的采样频谱映射至相同的采样频率上使得光谱维数一样,我们把采样频率设定为两个THz-TDS系统中最小的频率即0.009 THz。采用3次样条插值[12]的方法将高晶系统的采样频率映射到0.009 THz上,得到统一采样频率下的所有光谱数据。图2为6种物质分别在这两套THz-TDS系统下测得的光谱数据,可以发现,虽然不同THz-TDS系统测得的同种样品在波形及幅度上仍有微小的差异,但是吸收峰的位置基本一致。

3 SVM 物质识别

3.1 建立 SVM 分类器

SVM算法[13-14]是根据有限的样本信息在模型的复杂度( 即对训练样本的学习精度) 和学习能力(即对测试样本的识别准确率) 之间寻求最佳折衷,以获得最好的推广能力。用给定的训练集来建立SVM分类器,训练集可表示为(Xi,Yi),i= 1,2,3,···,N,Xi∈ R,其中:Yi是吸收光谱数据Xi的输出标签,即为物质的类别;N是样本数。SVM的目标函数定义为[15]:

图2 不同系统测得的同一种样品在数据预处理后得到的光谱图Fig.2 The spectra after data preprocessing measured by different systems

式中:w为权重;c为惩罚参数; φ为核函数;为 容忍参数;b为偏置参数。c的作用是调节模型的置信范围和经验风险的比例以调节其推广能力,核函数用于建立SVM分类器。实验采用3种最常用的核函数,分别表示为:

(1)线性函数:t(x,y)=x·y

(2) 多项式函数:t(x,y)=[(x·y)+1]d(d为样品厚度)

(3) 径向基函数:t(x,y)=exp-|x-y|2/g2(g为核参数)

惩罚参数c和核参数g的选取对SVM的识别模型有很大的影响[16];当c和g过小时,会产生对测试样本缺乏泛化能力的“过学习”现象;而当c和g太大时,则会产生把所有样本都划分为一类的“欠学习”现象[17]。为了获得良好的识别效果,有必要选择最优的c和g参数。本文采用网格搜索法对SVM参数进行优化[18]。

3.2 SVM 识别结果

实验基于开源软件LIBSVM[19]与MATLAB平台进行,用上理工的THz-TDS系统得到的光谱数据作为训练集(60个样本),并建立SVM模型,再用该建立好的模型预测高晶系统得到的光谱数据(60个样本)。 图3显示了网格搜索法对SVM参数选择的过程,SVM的最优化参数为:c=0.0625,g=1,可以观察到网格搜索的遍历程度很高,并且c和g参数的选择对于训练集的准确率有很大的影响。因此,网格搜索方法可以找到SVM的全局最优参数。

图3 基于网格搜索法优化参数选择结果Fig.3 Optimization c, g parameters based on grid search method

在3种常用核函数模型(c=0.062 5,g=1)下,用SVM分类器对于6种物质识别的正确率如表1所示。

表1 3 种常用核函数的 SVM 识别结果Tab.1 SVM identification results of three common kernel functions

可发现采用径向基核函数的SVM算法识别率最高为98.33%,60个样本中只识别错了一个样本,能够很好地识别出由多个THz-TDS测量的6种未知物质。这是由于径向基核函数是一个非线性核函数,而我们的数据特征分布具有非线性特性,因此,非线性核函数的识别效果要好于线性的核函数,说明本文采用的方法能够很好地适用于不同测量系统之间的物质识别,具有很强的适应性和鲁棒性。

4 结 论

本文利用THz光谱的指纹谱特性,提出一种不受光谱来源限制的物质识别方法。首先,根据参考信号和实际信号计算出THz光谱的吸收系数,然后采用小波变换的方法去除光谱中的基线和噪声等干扰信息;由于每台THz-TDS的离散采样频率不同,因此通过3次样条插值的方法将其映射到相同的采样频率上,使得多来源数据能够同时带入分类器中进行识别。最后结合基于网格搜索法的SVM对物质进行分类。在比较3种不同的核函数后,发现采用径向基核函数时物质识别的准确率最高且可达到98.33%。研究结果对于基于多个THz-TDS系统物质识别具有重要意义,可以为物质识别研究提供参考。

猜你喜欢

分类器光谱物质
喝茶养生这些物质在起作用
基于三维Saab变换的高光谱图像压缩方法
喝茶养生这些物质在起作用
第3讲 物质的化学变化
第3讲 物质的化学变化
BP-GA光照分类器在车道线识别中的应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
星载近红外高光谱CO2遥感进展
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别