APP下载

基于t-SNE算法的ABPSK信号个体识别

2020-01-17姚舜禹王雪邹德财李优阳

时间频率学报 2019年4期
关键词:前导降维正确率

姚舜禹,王雪,邹德财,李优阳

(1.中国科学院 国家授时中心,西安710600;2.中国科学院大学,北京100049;3.中国科学院 精密导航定位与定时技术重点实验室,西安710600)

0 引言

信号个体识别是指从采集到将信号源识别出来的过程,识别出信号源个体在电子对抗中有着重要的意义,掌握对方雷达的工作参数等于掌握了对抗的主动权。由于同一通信体系下的ABPSK(aeronautical binary phase shift keying)信号都有着相同的前导码,属于在相同工作模式下通信辐射源个体识别的问题,在去除掉能量特性之后就只能依靠前导码之间细微特征差异来区分信号源,一般引起差别的原因有信号源内部元器件不稳定性,性能参数具有的非线性。针对常见的细微特征提取方式有J.Morlet[1]在1974年提出的小波变换,黄锷[2]在1998年提出的EMD(empirical mode decomposition)分解等。经过多年的发展,这些提取特征方法衍生出许多变种,这些特征又可以称为指纹特征[3]。然而此类特征在实际应用中一般无法达到理论性能:①实际应用中许多信号源的机器型号和工作模式完全一样,通过调制参数的差异无法识别出信号源个体;②样本数量少,通常无法充分地识别出信号源的指纹特征;③部分特征对噪声和干扰比较敏感,影响识别个体的能力;④高阶谱特征一般处于高维特征空间,周围环境的干扰具有鲁棒性,但是由于处在高维空间,容易引起维度灾难[4],导致分类识别性能下降;⑤一般的线性降维方式如PCA(principal component analysis)等一般无法找出样本之间的非线性拓扑结构,从而无法很好地寻找到信号源发射的信号样本之间的关系;⑥一般的识别都会加入其他特征进行特征融合,这些特征对分类的正确率贡献极大,而单一特征分类的正确率一般比较低。

鉴于以上一些原因,本文使用双谱变换来提取出信号的细微特征。使用t分布随机近邻嵌入算法(tdistributed stochastic neighbor embedding,t-S NE)算法对信号特征进行降维,降低双谱变换结果的维度,缓解因特征维度过高带来的维度灾难问题。由于t-SNE一般采用SGD(stochastic gradient descent)作为优化器,收敛速度慢于Adam(adaptive moment estimation),收敛函数值一般也大于Adam,故而引入Adam作为t-SNE算法的优化器。在SVM(support vector machine)使用VC维(Vapnik-Chervonenkis dimension)较高的核函数进行分类时,使用t-SNE实现降维后的特征分类有比较好的效果。

1 信号特征说明及双谱变换介绍

本节介绍ABPSK信号和双谱变换。

1.1 ABPSK信号体制介绍

ABPSK信号常应用于INMARSAT移动通信中,ABPSK是DBPSK(differentially conherent BPSK,二相差分键控)的一种特殊形式,是对普通的BPSK改进的一种调制方式,借鉴了QPSK(quadrature phase shift keying)的原理,利用特殊的二进制差分编码和正交调制技术,将DBPSK中180°相位变化转化为90°相位变化的ABPSK[5]。对于[-1,1,-1,1,-1,1,1,-1,-1,-1]的码片序列的输出波形如图1所示。

前导码一般可以分为同步码和检测码两个部分[6],本文使用的信号采样率为6 kHz的实际采集某个系统的ABPSK信号,信号格式为40 ms空白保护+150 bit(250 ms)CW+74 bit 0101(123.3 ms)+32 bit UW独特码+信息码的格式,经过对齐取I、Q两路的前2 460个点作为I、Q两路的前导码特征。

本文中所有信号的前导码部分都是相同的,对齐之后的前导码使用常规的方法(如小波变换、希尔伯特黄变换及分形维数等)都不能很好地识别出信号个体,这就要求找寻一种能够揭示发射机非高斯、非线性的有色噪声的方式。

图1 ABPSK信号已调波形图

1.2 双谱变换

发射机噪声是雷达无意调制的产物(包括互调频率、谐波频率及一些交叉调制、寄生调制等),由于不同发射装置采用的电路和器件不同造成的发射机噪声不同,这些不规则的非线性、非高斯的有色噪声便是信号源的细微特征[7],一般的一阶和二阶特征无法揭露这些有色噪声,通常采用高阶累积量的方式来识别这些有色噪声。双谱变换则是最常用的信号细微特征提取算法。

对于均值为零的连续信号x(t),三阶相关函数C3x(τ1,τ2)定义如下:

式(1)中,τ1和τ2为自相关操作滑动窗口的时间间隔。

连续信号x(t) 的双谱表示为

对于一个离散时间能量有限的确定信号,将双谱定义为

式(3)中,X(f)为信号序列x(t)的离散傅里叶变换,B(f1,f2)为双谱变换的结果。

1.3 核函数

根据统计机器学习的观点,存在一个非线性变换,使得在低维空间中不可分的样本可以通过某种非线性变换映射到另一个空间,样本在这个空间中是线性可分的[8]。

假设在原空间中有一组样本x1,x2,…,xn,xi,通过一个非线性映射投影到一个新的空间形成的点φ(xi),这个空间是一个希尔伯特空间,两个样本在这个空间的内积形成的函数称为核函数[9],生成的空间称为再生核希尔伯特空间,表示为

根据Mercer定理,任何半正定的函数都可以作为核函数[10],常用的核函数有:

①线性核。线性核是最简单的核函数,核函数的数学公式如下:

②多项式核。多项式核是一种非标准核函数,它非常适合于正交归一化后的数据,其具体形式如下:

③RBF核函数。RBF核函数的性能对参数十分敏感,以至于有一大把的文献专门对这种核函数展开研究,其数学形式如下:

核函数有以下特点:①核函数的引入缓解了维度灾难,大大减小了计算量,可处理高维输入。②不需要知道非线性映射φ(xi)函数形式和具体参数。③核函数的参数和形式的变化会隐式地改变从样本空间到再生核希尔伯特空间的映射,进而对再生核希尔伯特空间的性质产生影响,最终改变各种核函数方法的性能。

核函数方法可以和不同的算法进行结合,形成多种基于核函数技术的方法,且这两部分的设计并不冲突,并可以为不同的应用选择各种不同的核函数和算法。

2 t-SNE算法

为了解决维度灾难问题,提高分类器识别正确率,在此引入t-SNE算法[11]对信号特征进行降维。

2.1 模型介绍

t-SNE算法是L.V.D.Maaten[12]在2008年提出的,其前身是G.Hinton[13]在2002年提出的SNE算法,因为SNE算法损失函数为KL散度并且衡量映射近邻的方式是高斯分布,会造成映射概率的非对称性和拥堵问题,所以引入t分布来解决拥堵问题。

假设数据集X,它共有N个数据点。每一个数据点xi的维度为D,我们希望降低为d维。在一般可视化的条件下,d的取值为2,即在平面上表示出所有数据。t-SNE通过原始数据之间的欧氏距离转化为概率来表征相似性:

如果以数据点xi为中心的高斯分布所占的概率密度pj|i为标准选择近邻,那么pj|i就代表xi将选择xj作为它的近邻。对于相近的数据点,条件概率pj|i是相对较高的,然而对于分离的数据点,几乎是无穷小量(高斯分布的方差由预先设置的参数困惑度决定)。

因为KL散度是非对称度量,所以pij的表达式如下:

在低维空间下,我们使用更加偏重长尾的t分布的方式来将距离转换为概率分布,使得高维度下中低等的距离在映射后能够有一个较大的距离。qij为yi和yj在低维数据点映射的相似概率,使用t分布的qij如下:

近几年,食品中活性成分的提取分离技术一直朝着提高产品得率、增加提取效率、减少有机试剂使用量、降低活性组分的破坏等的方向发展。在这种背景下,超临界流体萃取、高静压、高压脉冲电场和超声波等非热加工技术的辅助提取等方法受到业界的青睐,展现出巨大的发展潜力。

其损失函数如下:

对损失函数求梯度的结果如下:

2.2 Adam优化器

t-SNE一般采用的优化器为SGD,由于随机梯度下降收敛速度较慢,收敛过后的损失函数值一般也比较大,本文采用Adam算法作为优化器。Adam优化算法基本上就是将Momentum和RMSprop结合在一起,Adam算法如下[14]。

式(13)中,Adam参数说明如下:yi为第i个样本在低维空间的映射坐标向量,为最终求解的目标;C为损失函数;vdyi为带动量的梯度方向,即速度方向。为经过修正的vdyi;sdyi为微分平方的加权平均数;为经过修正的sdyi。

Adam超参数说明如下:β1和β2是控制指数加权平均的超参数;α是学习率;ε是一个非常小的正数,作用是为了避免分母为0。

2.3 模型优化

对损失函数公式(7)的优化采用Adam方式进行优化,算法详细过程如下:①设置参数困惑度以及迭代次数T;②设置Adam优化算法的超参数;③计算在给定困惑度条件下的条件概率;④计算pij,为了计算方便,当i=j时,pij取0.000 000 01;⑤用方差很小的正态分布初始化所有的yi;⑥重复迭代计算低维度下的qij并使用Adam算法更新所有的yi;⑦重复迭代超过最大迭代次数T后结束。

上述为本文所用Adam算优化器进行优化的详细步骤,经过上述步骤所得到的yi为第i个样本在低维空间的映射坐标向量,所有的yi构成了低维空间中所有的样本集合。

3 实验结果及分析

本文采用前导码相同的ABPSK实际信号采集数据,同一个个体发出的信号没有固定频率,采样带宽1 kHz,采样时长约24 h,采样率为6 kHz,经过人工标注标签,共10类235个样本,为同一调制方式的不同个体,信噪比在5~20 dB之间。

3.1 数据的预处理

经过数据预处理,得到ABPSK信号前导码特征以及双谱变换后的双谱特征。

3.2 信号前导码及双谱幅度谱t-SNE降维结果

分别将已经去除掉能量特性的I、Q两路的前导码及双谱幅度图降至2维,降维之后的结果如图2至图4所示,其中的数字为信号的类别编号。

图2 I路前导码降至二维的结果

图3 Q路前导码降至二维的结果

图4 双谱幅度图降至二维结果

在降至2维后,能够明显看出信号的聚类情况,样本在2维空间之间的远近反映了样本在原始空间之间的距离的远近,显示了t-SNE在信号数据可视化方面性能强大。从图2至图4中可以看出前导码降维过后明显分成两组,且组内样本不易区分,经过双谱变换和t-SNE降维后,样本分成3组,且组内样本区比前导码更易区分。

3.3 能量对分类结果的影响

对235个样本打乱顺序进行随机划分,165个训练样本,70个测试样本,分别用带有未能量归一化的特征和能量归一化过后的特征,正确率为10次随机选择测试样本正确率的平均值,使用SVM进行分类,试验使用了3种Mercer核函数进行试验,特征包括I、Q两路前导码及双谱幅度图,测试结果示于表1。

表1 有无能量特性对于分类正确率的影响

从表1可以看出,能量对分类的正确率影响特别大,能量归一化过后分类难度明显变大,传统识别方法都会把信号的参数(如中心频率、码频率等)与未能量归一化的特征进行特征融合,分类正确率一般都很高。

3.4 维度对分类结果的性能影响

依旧随机分配165个训练样本和70个测试样本,使用t-SNE降维方式进行降维,降到不同的维度试图寻找出最佳的维度,正确率是10次正确率的平均值,示于表2。

表2 能量归一化特征降维后正确率提升对比

从表2中可以看出,降维在SVM核函数VC维较高的情况下显著提升了分类的正确率,缓解了因维度过高带来的过拟合问题。在SVM使用线性核分类时,I、Q两路前导码和双谱幅度图降维后分类正确率分别比原始信号提高了11.34%、13.72%和5.71%,3种特征在200维时分类平均正确率最高。在SVM使用多项式核进行分类时,双谱幅度图降维在5维时正确率最高,比原始信号提高了21.34%,Q两路前导码都降维在3维时正确率最高,比原始信号分别提高了16.43%和24.15%。在SVM使用RBF核进行分类时,双谱幅度图降维在6维时分类正确率最高,比原始数据正确率提高了50.86%,I、Q两路前导码降维最佳维度分别为5维和4维,正确率比原始信号分别提高了21.86%和27.28%。

平均正确率随着维度变化的趋势如图5至图7所示。

图5 3种特征在各个维度下线性核分类正确率的平均值

图6 3种特征在各个维度下多项式核分类正确率的平均值

图7 3种特征在各个维度下RBF核分类正确率的平均值

从图5至图7可以看出,双谱幅度图明显比原始信号的前导码分类效果更好。从图5可以看出在SVM使用线性核函数分类时维度对分类的正确率趋势较为缓和,在前200维随着维度上升正确率缓慢提升,所有特征在200维时正确率最高。从图6可以看出在使用多项式核函数分类时双谱幅度图在降维小于200维时正确率没有明显的变化,在维度大于200维时有明显的正确率下降,在5维时正确率最高。I、Q两路前导码降维随着维度的上升正确率逐渐的下降,都在3维时正确率最高。从图7可以看出使用RBF核函数分类时在双谱幅度图及原始信号前导码降维小于6维时正确率较平稳,超过6维时有明显的下降趋势,双谱幅度图在6维时分类正确率最高,I、Q两路前导码最佳维度分别为5维和4维。

4 结语

本文使用t-SNE降维方式对3种特征进行降维,研究了3种特征随着维度的变化正确率的变化趋势,并研究了SVM使用常用核函数在维度变化时对正确率的影响。试验结果表明对于VC维比较高的RBF核函数和多项式核函数,在特征维度较低的情况下不容易过拟合,降维过后不会出现支持向量过多的情况,也解决了维度灾难问题。本文使用的双谱变换就是信号领域中常用人工提取特征方式,优势是可以在样本量较小的情况下训练出分类模型,不需要用使用大量的计算资源(如大量的GPU)花费几个月时间训练出复杂模型的参数。

但使用t-SNE降维仍有部分不足:①采用距离进行测算可能无法分辨某些信号;②计算复杂度为o(n2),若不用并行化速度会非常慢。希望在后续的研究中能够优化细微特征提取方法来提升识别的正确率。

猜你喜欢

前导降维正确率
混动成为降维打击的实力 东风风神皓极
门诊分诊服务态度与正确率对护患关系的影响
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
小学数学课前导入改进措施分析
基于“三思而行”的数学章前导学课设计——以《数的开方》(导学课)为例
降维打击
NB—IoT系统物理随机接入信道设计
生意
品管圈活动在提高介入手术安全核查正确率中的应用
生意