APP下载

一种有效的雷达辐射源信号数据清洗方法

2022-07-01张力锋殷雪凤

现代电子技术 2022年13期
关键词:辐射源脉冲聚类

张力锋,殷雪凤

(1.陆装驻西安地区第七军事代表室,陕西 西安 710065;2.西安电子科技大学,陕西 西安 710071)

0 引 言

随着雷达技术的快速发展,电子对抗所面临的环境日益复杂,雷达辐射源分布范围广、密度大,而且信号调制形式复杂,调制参数转换越来越快捷,信号在时空领域内交错。在如此复杂的电磁环境下,电子侦察设备截获到的辐射源信号数目不断增加,质量差异也越来越大,噪声数据与有效数据混合在一起,导致获取战场态势信息的难度加大;另一方面,当今雷达对抗正朝着信息化和智能化的方向发展,在辐射源信号识别、干扰识别、情报分析和电磁态势感知等领域,有不少研究学者将人工智能、数据挖掘等领域的方法引入,用于解决电子对抗的相关研究难题,并取得了不错的效果。但这些高性能的数据驱动算法对数据质量的要求也更高。因此,在进行辐射源信号分析识别之前,对原始雷达辐射源信号进行数据清洗,提高数据质量具有重要意义。

数据清洗是一种尽可能多地调整或去除有质量问题的原始数据而保留正确信息,使其具有更好的稳定性和代表性的数据处理方法。目前提出的数据清洗方法大多用于分析结构化的数据,即可以使用二维表结构表示和存储的数据。根据采用的清洗算法不同可分为基于完整性约束的数据清洗算法、基于规则的数据清洗算法、基于统计的数据清洗算法和人机结合的数据清洗算法等,广泛应用于医疗、能源、零售、汽车、金融等领域。对于非结构化数据,也有部分研究成果,主要用于解决时间序列相关问题,包括单点大错误、单点小错误、连续错误、平移错误等。主要的清洗方法包括基于平滑的清洗算法、基于约束的清洗算法和基于统计的清洗算法,用于解决土遗址监测、风机装备、物流车轨迹等领域的时间序列清洗问题。

针对雷达辐射源数据,现有的数据清洗方法并不适用,因此,本文提出了一种针对雷达辐射源信号的非结构化数据清洗方法。该方法首先求取原始信号包络与两个脉冲序列的相像系数,然后将求得的两个相像系数组合成特征向量,最后利用基于密度的含噪数据空间聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)对数据进行聚类划分,实现清洗。在仿真和实测数据上的实验证明,本文提出的数据清洗方法能有效检测并剔除低质量数据,提高数据质量。

1 问题描述

在电子侦察系统中,因电磁环境复杂、接收机性能不佳等原因,导致截获的原始雷达辐射源信号样本间质量差异较大,不同信号样本信噪比各异,有的样本仅含半个脉冲,有的甚至未截获到辐射源脉内信号。经分析,本文将原始辐射源数据集中的样本分为脉冲信号样本和噪声信号样本,如图1所示。其中,脉冲信号分为残缺脉冲信号和完整脉冲信号,分别如图1a)和图1b)所示。噪声信号如图1c)所示,其产生原因主要包括两个方面:信噪比过高导致接收的脉内信号被噪声淹没;接收机截获到脉间信号。

图1 不同质量辐射源信号的时域图

由于噪声信号不包含雷达辐射源脉内信息或是脉内信息被噪声完全淹没,对其进行进一步的信号处理不能获取有用的信息,浪费计算资源,还可能影响后续分析结果。在传统的电子侦察系统中,对于这类噪声样本往往是通过人为干预,将其手动剔除。但随着电子对抗逐渐步入大数据时代,截获数据越来越多,人工处理工作量不断增大。因此,本文提出一种针对雷达辐射源信号的数据清洗算法,实现对噪声数据的自动检测和剔除。

2 数据清洗方法和流程

本文提出的雷达辐射源数据清洗方法总体流程如图2所示。该数据清洗模型包含数据预处理、特征提取、聚类划分三部分,原始辐射源信号经过包络提取和归一化预处理之后,分别求取包络信号的矩形和三角形相像系数,并将二者拼接成特征向量,最后利用DBSCAN算法对数据进行聚类划分,从而达到检测和剔除噪声数据的目的。

图2 数据清洗流程图

2.1 数据预处理

为减小雷达信号脉内特性对于清洗结果的影响,在特征提取前,利用归一化香农能量算法对原始的雷达信号进行包络提取。设一截获的雷达辐射源信号序列表示为x(i),则其包络P(i)的计算公式如下:

式中:=1,2,…,,为信号采样点数;max(·)表示求序列的最大值;()为归一化信号;()为信号的归一化香农能量;()为平滑后的香农能量;表示窗内的采样点数;mean(·)表示求序列的均值;(·)表示序列的标准差。

为便于提取相像系数特征,必须保证包络序列非负,因此,对包络()进行了min-max归一化处理,将包络幅值约束在0~1之间。min-max归一化定义如下:

式中:和分别为序列(),=1,2,…,的最大值和最小值。

图1中不同质量信号对应的包络信号时域图如图3所示,可见预处理方法能有效提取信号包络。

图3 信号包络时域图

2.2 特征提取

设有两个一维的离散正值序列{()}和{()},其中,为序列点数,()≥0且()≥0(=1,2,,),两序列的相像系数定义为:

由于()和()为非负实数序列,故由Cauchy Schwartz不等式可得:

因此,相像系数的取值范围在0~1之间。

式(8)取等号的条件是序列()和()相等,所以可推导得到序列()和()相等或对应成比例时相像系数的取值为1;当序列()和()相互正交时,=0。由于相像系数这样的特性能表征两离散序列趋势差异程度,两序列的走势和轮廓相差越小,相像系数越大。

经过预处理之后得到的包络信号能较好地反映噪声样本和脉冲样本之间的差异,但维度过高,包含大量的冗余信息,聚类划分时会增大计算量,因此本文对其进行特征提取降低数据维度。观察图3可知,不同类型的辐射源样本之间不完全相似,噪声信号的包络能量在整个采样时间内随机变化,分布均匀,而脉冲信号在有脉冲处和无脉冲处能量差异较大,可认为能量更多地集中在辐射源脉内。因此,构造一矩形脉冲序列和一三角形脉冲序列作为参照样本,分别求取辐射源样本包络与两个脉冲序列的相像系数和,并将其组合为样本特征向量,记为[,]。通过此方法一方面将数据维数降为2维,大大减少了运算量;另一方面,也能充分反映脉冲信号和噪声信号之间的差异,保证了后续聚类参数间具有最大的分离度。

2.3 聚类划分

雷达辐射源的脉冲信号和噪声信号间存在一定的相异程度,在空间中表现为不同的簇群。为剔除雷达辐射源数据集中的噪声信号样本,使用基于密度聚类的DBSCAN算法识别数据集中的噪声数据。该算法的聚类结构由样本分布的紧密程度确定,能对任意形状分布的簇进行聚类,具有良好的抗噪声性能。

DBSCAN算法由一组“邻域”参数(,MinPts)来刻画样本分布的紧密程度。对于给定含个样本的数据集={,,,x},算法中定义了如下概念:

1)-邻域:对于样本x∈,其-邻域定义为样本集中与x的距离不大于的样本,即N(x)={∈|dist(x,x)≤};

2)核心对象:对于样本x,若其-邻域内至少包含MinPts个样本,即|N|(x)≥MinPts,则x为一个核心对象;

3)密度直达:若xx的-邻域中,且x为核心对象,则称xx密度直达;

4)密度可达:对于xx,若存在样本序列,,,p,其中,=xp=xpp密度直达,则称xx密度可达;

5)密度相连:两个样本xx,若存在x使得xx均由x密度可达,则称xx密度相连。

如图4所示,当MinPts为3时,虚线展示出-邻域,为核心对象,由密度直达,由密度可达,与密度相连。

图4 DBSCAN算法概念直观理解图

算法中的距离采用欧氏距离进行度量,设待清洗的雷达辐射源信号数据集为,可由相对应的相像系数特征矩阵表示。计算每两个样本xx间的欧氏距离,即:

式中:W W 分别为样本xx的特征向量;ww分别为W W 第维的特征值。

DBSCAN的核心思想为:以欧氏距离为标准,根据预设的邻域参数(,MinPts)找出样本中所有的核心点,并将所有核心点的密度可达点形成的集合作为一个聚类簇,完成对噪声样本和脉冲样本的划分。聚类具体步骤如下:

1)提取待清洗样本的相像系数特征,建立特征数据库。

2)设置邻域参数(,MinPts)。

3)从特征数据库中选取一个未处理的样本,并判断该样本是否为核心点,若该样本点为核心点,则转到步骤4);若该样本点为非核心点,则转至步骤5);若数据库中不存在未处理样本,则转到步骤6)。

4)找到当前核心点所有密度可达的样本点,形成一个簇,并将其从数据库中删除,转到步骤3)。

5)标记当前样本点为边界点,转到步骤3)。

6)聚类完成后,提取噪声信号的聚类簇,并将其从原始数据集中删除,得到数据清洗后的数据集。

3 实验结果与分析

3.1 数据集和评价指标

为验证方法的有效性,本文在两个数据集上进行实验测试算法性能,分别为仿真数据集和实测数据集。

仿真数据集:利用Matlab随机生成不同类型的截获信号样本,脉内调制方式包括常规脉冲信号、线性调频信号、非线性调频信号、二相编码信号以及二频编码信号5种类型,样本数目共10 000个,每个样本的采样点数为10 000,信噪比在20 dB、15 dB、10 dB、5 dB、0 dB、-5 dB、-10 dB中通过程序随机选择。在进行实验之前,所有样本都经过人工清洗打上了噪声信号样本或脉冲信号样本的标签,其中,噪声信号样本有5 405个,脉冲信号样本有4 595个。

实测数据:某接收机截获的数据由5 000个样本组成,包含完整脉冲信号、残缺脉冲信号和噪声信号样本,每个样本采样点数为40 000个。同样对其进行脉冲信号和噪声信号标签的人工标注,其中,噪声信号样本有3 796个,脉冲信号样本有1 204个。

为评价本文数据清洗方法的性能,以准确率作为评价指标,定义如下:

式中:准确分类的数据数目是指以人工清洗标注的标签为基准,采用本文的数据清洗方法聚类之后得到的样本对应标签与基准标签比较正确的个数。

3.2 仿真数据实验结果

对仿真数据集中的样本进行预处理和特征提取后,样本数据可用二维相像系数特征向量表示,因此利用特征向量对样本进行可视化。如图5所示,分别为人工清洗和采用本文数据清洗方法得到的可视化结果。

图5 仿真数据集样本可视化结果

图5a)为人工清洗的噪声及脉冲样本分布情况,噪声样本和脉冲样本在特征空间的分布有明显的差别,噪声样本主要分布在图中的右上角区域,即噪声样本对应的两个特征值都较大。可见相像系数特征能有效反映噪声样本和脉冲样本间的差异。图5b)为利用本文提出的方法得到的数据清洗结果,对比图5a)可以看出,大部分的噪声数据能正确被标记为噪声样本,有部分特征不太突出的样本被错误标记为脉冲样本。

进一步统计了采用本文方法聚类后的样本分类情况,如表1所示,本文提出的数据清洗方法准确率达到了95.67%,可见在仿真数据集上,有较好的清洗效果,基本达到了人工清洗的水平。

表1 仿真数据样本分类情况统计表

3.3 实测数据实验结果

为了探究本文提出的数据清洗方法在实测数据上的效果,进一步在实测数据集上进行实验。图6展示了人工方法和本文方法的清洗结果。

图6 实测数据集样本可视化结果

由图6a)可知,在实测数据上,采用相像系数作为特征时,样本间具有比仿真数据更好的分离度。结合图6a)和图6b)分析可知,人工清洗和采用本文方法自动清洗的差别不大。更进一步,以人工标注标签为基准,统计了本文提出的数据清洗方法对样本分类的情况如表2所示。由表2可知,在实测数据上本文提出的方法准确率能达到99.8%,基本达到了人工清洗的水平,能有效清洗去除噪声样本,提高数据质量。

表2 实测数据样本分类情况统计表

4 结 语

本文提出一种针对雷达辐射源信号的数据清洗方法,达到了将噪声信号样本从原始辐射源信号数据集中剔除的目的。首先对截获的雷达辐射源信号进行预处理,提取信号包络,然后计算包络信号的相像系数,最后以相像系数作为特征,利用DBSCAN聚类算法检测噪声信号,并将其剔除。实验结果表明,该方法能有效剔除噪声信号,对仿真数据和实测数据都能达到很好的数据清洗效果,基本达到了人工清洗的水平,有效地提高了数据质量和清洗效率。

但本文的方法也存在不足之处,DBSCAN聚类划分部分需要人为预先设置邻域参数,参数的设置是否合理直接影响清洗效果。下一步的研究将重点考虑自动设定参数的DBSCAN聚类方法,进一步提高数据清洗的智能性。

猜你喜欢

辐射源脉冲聚类
他们使阿秒光脉冲成为可能
脉冲离散Ginzburg-Landau方程组的统计解及其极限行为
基于博弈论的GRA-TOPSIS辐射源威胁评估方法
数字电视外辐射源雷达多旋翼无人机微多普勒效应实验研究
外辐射源雷达直升机旋翼参数估计方法
黄芩苷脉冲片的制备
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
基于迁移成分分析的雷达辐射源识别方法研究
一种层次初始的聚类个数自适应的聚类方法研究