基于样本熵的语音信号检测算法

2021-01-28陈佳琪郑晓庆

海军航空大学学报 2020年5期

陈佳琪，郑强，郑晓庆

（海军航空大学，山东烟台264001）

船舶航行时，语音通讯与交流是必不可少的。但船舶航行过程中，各种设备产生的巨大噪声严重干扰了通讯端语音信号，使得有用的语音不能被正常接收，影响了船舶工作者的正常交流。故削除语音信号通讯端工作环境中船舶的噪声干扰，增强语音信号，对语音交流的准确性和舒适性有重要意义。实现语音信号增强，须从含噪信号中将语音信号和船舶背景噪声正确地检测分离，以便进一步通过谱减法等方法实现语音增强。

为了达到语音降噪增强的目的，关键是要把源信号中无语音的噪声段与语音段进行分离。目前，国内外学者进行了相关的分析研究，提出的方法有时域和频域特征处理方法。如，基于短时能量、过零率、谱散度[1]，倒谱分析、短时分形维数[2]，频带方差[3]，多重线性回归分析[4]及修正调制谱估计[5]等。但这些方法在用于舰船背景噪声时遇到了以下困难：①船舶类型多种多样，运行状态千变万化，因而其噪声特征各不相同，背景噪声复杂多变；②舰船设备工作时噪声巨大，很多时候在时域可将语音信号完全掩盖，使信号的信噪比很低；③同背景噪声一样，说话人的性别与年龄的不同也会导致语音信号的巨大差异。船舶背景噪声和语音信号的复杂多变使许多检测方法因类内特征离散度大而失效。所以，须探索新的噪声段与语音段的检测分离方法，以适应船舶背景噪声特征[6]。

样本熵是Richman提出的一种时间序列复杂性的测试方法[7]，复杂度代表了信号序列中出现新信息量的大小[8]。语音信号与船舶工作噪声信号的产生机理是不同的，语音信号是由肺部收缩产生的气流经过声门和声道引起震荡产生的；船舶工作噪声与船舶的结构、材质和发动机样式等有关。因此，2种信号时间序列的信息变化程序存在差别。本文在分析2种信号复杂性特征的基础上，利用2 种信号在时间序列中出现新信息量的大小和变化幅度的不同，通过时域信号样本熵，实现了含噪信号中语音段和船舶背景噪声段的正确分离。通过实测数据实验验证，该方法具有不错的检测效果。

1 信号特征分析

舰船背景噪声与语音信号本身都为复杂多变的信号，类内特征皆有较大的离散性，故可以信号发声机理为基础研究2 者的不同之处，并利用频谱的相似性将信号进行分离。

船舶作为一种工作环境，有其本身的特殊性。船舶背景噪声主要由船舶发动机、发电机等各种设备的运行产生，对于实际的工作环境，船舶自身的大小、材料、发动机类型等会成为其噪声特性的决定性因素[9]。这说明当在一个较短时间内，分析其噪声特点时，由于船舶自身运动状态及发动机状态等通常会保持一个较稳定的状态，因而对其噪声进行频谱等各种特征分析时，短时间内的频谱特性会较为稳定[10-11]。图1 为某船舶背景噪声相邻时间帧信号的频谱分布。可以看出，其相邻帧的频谱分布表现出较好的相似性，即具有短时稳定性。

图1 船舶背景噪声信号相邻帧频谱分布相似性Fig.1 Spectrum distribution similarity of adjacent frames of ship background noise signal

语音信号由肺部收缩产生的气流经过声门和声道引起震荡而产生。语音中有意义的最小单元是单词，单词由音素组成[12-14]，音素是语音中的最小单位。一段语音信号中会选择不同的单词来表达内容，通过音素引起气流、声门和声道的不断变化，从而表现出即使在一个较短时间内，其相邻时间帧信号的频谱等特征表现出较大的差异，如图2 所示。为纯净语音信号相邻帧信号的频谱分布特性，其频谱计算方法与图1相同，且都进行了频谱曲线平滑处理。

图2 语音信号相邻帧频谱分布特征Fig.2 Spectrum distribution characteristics of adjacent frames of speech signal

综上所述，不同的发声机理，使语音信号与船舶背景噪声信号的短时频谱相似性有较大的差异。对于背景噪声信号，其短时帧间频谱分布相似性较大，因而其信号时间序列中的新信息量较少；而语音信号由于短时帧间频谱的分布相差很大，其信号时间序列中的新信息量会较多[15-18]。因此，通过样本熵来描述含噪声语音信号中语音段与噪声段信号的新信息量差异，可以实现2种信号的判别。

2 含噪语音信号的样本熵

2.1 样本熵的定义和物理意义

样本熵的定义为：通过度量信号中产生新模式的概率大小来衡量时间序列复杂性，新模式产生的概率越大，序列的复杂性就越大。当数据向量由m 维增加至m+1 维时，继续保持其相似性的条件概率[15]，则样本熵可表示为：

式（1）中：N 为信号长度；r 为相似容限；Bm(r) 和Bm+1(r)的定义如式（4）所示。

时间序列产生新模式的概率越大，序列越复杂，相应的样本熵越大。样本熵从统计的角度来区别时间过程的复杂性，表征信号序列中前后数据的差异变化，只须要较短的数据就可以估计出来。

2.2 样本熵的计算

设每帧长度为N 的含船舶背景噪声的语音信号经过预处理后为x，其组成m 维向量为：

式（4）中，i,j ∈[ ]1,N-m+1 且i ≠j，对所有i 值求平均得：

3 基于样本熵的语音信号与辐射噪声判别算法

采样率为11 025 Hz 的输入信号，基于样本熵的信号判别算法的实现步骤如下：

步骤1：信号分帧。对信号进行预加重处理并使用汉明窗分帧，每帧512 个数据点，帧移点数为256。实验中，m=2，容许值r=0.2。

步骤2：对信号类别初始判别。首先，根据式（6）计算样本熵SampEn；然后，根据式（7）计算自适应阈值Thre1。

式（7）中：λ1与λ2的值通过试验确定，这里取值为λ1=4 和λ2=6；u、δ 为信号的均值与标准差。

比较SampEn 的值与Thre1的值：

如果SampEn ≤Thre1，信号为语音信号；

如果SampEn>Thre1，信号为辐射噪声。

从而实现对每1帧信号的初始判别。

步骤3：邻域平滑处理。根据同一种信号通道持续一定时间的规律，以当前信号帧及其前2 帧信号作为当前帧类别判断的邻域，对信号进行平滑处理。当邻域帧信号中有2 帧以上的信号类别为环境噪声，则当前帧信号最终类别判定为环境噪声，反之亦然。在对信号进行平滑处理时，以邻域帧信号的初始判别类型为判据。

4 算法实验验证

本文使用实测数据来验证算法的有效性。其中，船舶工作环境噪声数据主要为空投浮标和被动全向声呐采集的数据，包括商船、渔船等，数据文件共400 min，语音信号包括采用海泰HTPXI1008 数据采集器搭配麦克风在实验室录制的数据、网上公开的语音算法验证库中的语音数据共400 min，数据采样率均调整为11 025 Hz。实验中，以1s 时间长度为一个处理片段，片段内数据划分成10 帧，按照前面介绍的算法执行。

如图3 所示，为测试基于频谱趋势相似性的信号识别算法的性能及对不同数据的适应性，将测试数据分成3个子集进行实验。

子集1：该数据子集主要包括不同说话者的语音信号，主要用来测试算法对语音信号的识别性能和对不同说话者语音的适应性。实验中，每个录制的数据取20 s 进行实验，其结果如图3 a）所示。

子集2：该数据子集主要包括不同的水声目标辐射噪声数据。为实验的需要，采用与子集1 相同的数据文件长度，该数据子集主要用来测试算法对水声目标辐射噪声信号的识别性能和适应性，其识别结果如图3 b）所示。

子集3：该数据子集由不同的语音信号和水声目标辐射噪声信号组成，每个数据文件取20 s 进行实验。该子集主要用来测试算法对语音信号和水声目标噪声信号同时存在时的识别效果。同时，测试对语音信号与水声目标信号起始位置的识别精度，实验结果如图3 c）、3 d）所示。其中，图3 c）为每个语音数据文件与水声目标数据文件交替读取识别，而图3 d）为数据文件随机读取识别结果。

图3的4个识别结果中都包含4个子图，从下到上分别是时域信号幅值、在时域信号上计算得到的短时频谱Pearson 相关系数方差、初始未经过平滑处理的识别结果和算法的最终识别结果。

每个图中，第1 个和第2 个子图的纵坐标分别表示实验对目标的判断结果。

子图纵坐标取值中，1 表示识别结果为水声目标辐射噪声信号；2 表示采用多阈值方法但未进行结果平滑时被识别为水声目标信号待定信号；3 表示语音信号待定信号；4表示识别结果为语音信号。

从图3 中可以看出，算法对不同类型和不同工况下的水声目标信号以及对不同说话者的语音信号都取得了较好的识别效果，对不同组合方式形成的混合信号也取得了准确的识别结果。

为了量化该算法的判别精度，将正确判别信号时间和信号总时间进行比较，即：

对所有实验数据信号处理后的结果如表1 所示。从表1 中可以看出，基于时域信号样本熵的语音信号与环境噪声信号判别算法取得了较高的稳定精度。

表1 语音信号与辐射噪声信号判别结果Tab.1 Discrimination results of voice signal and radiated noise signal %

5 结论

本文通过分析语音信号与船舶工作环境噪声信号的不同产生机理，利用2 种信号在时域时间序列中出现新信息量的大小和变化幅度不同，通过信号样本熵实现了2种信号的判别。本文仅使用样本熵一个特征，避免了多特征之间的相关性带来的不确定因素以及特征值的计算带来的计算量较大等不足，通过大量实测数据的实验验证，算法取得了理想的判别结果。