基于人耳听觉特性的语音识别预处理研究

2021-12-08覃剑永朱明增陈极万周素君

今日自动化 2021年9期

覃剑永　朱明增　陈极万　周素君

[摘要]在社会生产、人们的生活中，电力系统所起到的作用越来越明显，尤其是随着能源转型，电能在社会发展中的作用更为明显，而支持大部分电能传输与能量转化实现的电网则成为电力系统正常运行不可或缺的重要部分。由于电网承担着传输、调度电能的重要职责，平时电网运行压力大，容易出现停电事故等。而停电事故发生之后，势必会对生活与生产产生不利影响，故提高电网管控水平具有十分重要的意义。近年来随着人工智能等技术的不断发展，一些先进的智能化技术在电网管理中逐渐得到应用，为电网调度等管控质量提供助力。文章基于人耳听觉特性，分析在电网运维中语音识别预处理相关技术及应用设计，以进一步助推电网管控智能化发展。

[关键词]语音识别;人耳听觉特性;预处理;电网管控

[中图分类号]TN912.34 [文献标志码]A [文章编号]2095–6487（2021）09–0–03

[Abstract]In social production， life and other activities， the role of the power system is becoming more and more obvious， especially with the energy transition， the role of electric energy in social development is more obvious， and most of the power transmission and energy conversion are supported The realized grid has become an important part of the normal operation of the power system. As the power grid bears the important responsibility of transmitting and dispatching electric energy， the power grid is under high pressure in normal operation， and it is prone to power outages. After a power outage occurs， it will inevitably have an adverse impact on life and production， so it is of great significance to improve the level of power grid management and control. In recent years， with the continuous development of artificial intelligence and other technologies， some advanced intelligent technologies have gradually been applied in power grid management， providing assistance to the quality of power grid dispatching and other management and control. Based on the characteristics of human hearing， analyze the related technology and application design of speech recognition preprocessing in power grid operation and maintenance to further promote the intelligent development of power grid management and control.

[Keywords]speech recognition; human hearing characteristics; preprocessing; power grid control

电网管控的主要内容涉及电网调度、电网维护等，其中电网调度是电网管控中最为重要的内容，提高电网调度管理智能化水平，对于推动整个电网管控智能化发展具有积极意义。当前语音识别技术在电网调度智能化管控中应用较为广泛，给电网智能化调度提供保障。电网调度领域同其他领域相比有很高的特殊性，一般电网调度指令交互可靠性要求较高，且存在区域性口音问题，为语音的正确识别增加了难度，因此研究一种可以准确识别语音并进行科学预处理的语音识别语言模型，可有效识别调度员在下达指令时的口误或者漏步，提升电网智能化管控质量。

1 基于人耳听觉特性的语音识别与预处理模型的初步构建

为构建科学的语音识别预处理模型，则需要模仿人耳，确保语言识别可以更加贴近真实人耳听到的内容，确保指令传达的准确性，避免由于语言识别同人耳出入过大，影响电网调度等相关指令的正确传达。基于人耳听觉特性构建的语音识别模型主要由以下几个部分组成。

1.1 仿人耳声音信号接收、分离、处理

当人耳接收到声音信息后，会对声音信号进行预处理，提取其中重要的語音信号，之后通过对提取的语音信号进行端点检测—加窗—分帧等处理后，提取其中的MFCC参数，并建立相关声学模型，确保语音识别得以实现。

构建的语音识别与预处理模型仿照人耳结构，将预处理模型分为耳蜗基底膜模型、提取语音信息、脑下丘细胞模型等，不同的模型组成部分在语音识别与预处理中发挥的作用不同，其中耳蜗基底膜模型可以实现将接收到的各类语言信号划分为不同的通道，之后利用相应的橄榄模型（同侧内侧、同侧外侧）对经过分类的语言信号进行提取处理，对信号预处理过程进行管控，确保信号预处理质量。

1.2 耳蜗基底膜模型

仿照人耳设计的耳蜗基底膜模型可以实现对各类语音信息的处理，根据语音信号的不同将语音进行分类，并从中提取重要的语音信号，实现对语音信息的分离处理，为下一步信号处理等提供必要技术支持。考虑到听觉神经特性，为更为真实地实现语言识别，选择16个信号通道，对收集到的语言信号进行分离，一般频率范围设置在100 Hz～4 kHz之间，实现对双耳声音通道（左耳、右耳）语音信号的全面分解，便于通过设计的耳蜗基底膜模型实现信号的科学处理。

1.3 信息提取与识别

（1）信息的提取是语音识别最为重要的环节，此环节语音识别的结果将直接影响下一步的语言信息处理。

①考虑到电网调度领域语言特殊性，采用词向量等设计，实现对电网调度中专业性比较强的词汇等进行科学处理，以准确确定语音信号传达的真正含义，确保语言识别与预处理模型的质量。

②采用Word2vec技术实现对专业语言信号的识别与处理。Word2vec技术可以将离散的语言信号转变为计算技术可以处理的数值向量，将原本无法进行计算的语言转化为可以计算的语言向量信息，便于语言之后的处理。Word2vec技术运用中，词向量的出现需要依赖一定的语料库。

③由于当前语言模型语料库并不完备，因此利用循环神经与深度学习相关技术，构建智能化语料库，为语音信息提取提供相应的语料库。采用的词向量生成方法为可以对词典中任意词指定固定的定值向量，词向量是对词典中的任意指定一个固定长度的实值向量v（W）∈Rm，W的词向量用v（W）表示，m维的实数向量空间采用Rm表示，之后利用已经编辑好的计算机学习算法对语音进行处理与识别，实现自然语言处理。

（2）在此环节语言识别中，需要构建相应的向量库，以通过向量庫词汇的运用实现深度学习，提升系统语音识别能力。采用Word2vec技术，考虑到调度业务语句语境与调度词汇具体情况，参照下述流程构建词汇库。

①语料库信息收集。电网调度相关信息的全面收集包括事故预案、调度规程、运行方式、历史调度日志等非结构化数据文档信息的收集，并构成相应全面的历史语料库，该语料库属于开放式语料库，可以持续性存储丰富内容。

②语料库信息预处理。对已经构成的语料库数据进行处理，处理内容包括对历史语料库中的数据进行去除停用词、去除标点符号、中文分词等处理，形成电网调度领域语言识别与预处理的初始词典。

③调度词汇训练。当初始调度词典构建完成后，可以通过调度词汇相关搜索，锁定相应搜索的词汇在词典中的位置，同时进行One-Hot编码，并结合历史词典的实际情况，将形成的语料送入Word2vec模型中进行深度学习，获得更多词向量，对当前调度语料库进行持续性更新，为电网调度相关语音信息的识别与处理提供支持。

④词向量评估。当词料库经过更新之后，需要采用词向量之间的计算、词汇之间夹角余弦值来衡量词汇之间的相似程度等方式对词汇向量进行评估，确定词向量的合理性及简单词汇之间的逻辑关系。

1.4 语音预处理模型——脑下丘细胞模型

待信息识别结束后，通过语音预处理系统对已经获取的语音进行处理，确保相关语音指令执行，确保智能化电网语音识别与处理模型可以真正发挥出效用。

语音处理模型与电网调度智能系统相连，通过预处理的语音信息，直接转变为电网调度系统的操作指令，由电网智能操作系统输入端口输入，实现电网调度系统的智能化管控。

在语音预处理上，采用Onsetcell模型，该模型包括两个状态，一个状态为激活状态，一个状态为非激活状态。此模型设计类似于突触模型的神经元，通过激活与非激活状态实现信息的处理。

在该模型设计上对双耳信号输入无限制，当接收到信号时模型进入激活状态，反之信号进入非激活状态，通过激活实现信息的传递与处理。Onsetcell模型的具体工作原理如图1所示。

2 基于电网调度语音识别与交互系统设计

为了进一步提高语音识别技术在电网调度中应用的价值，延伸语音识别系统设计，完善整个电网调度语音识别与交互系统。

在现有语音识别与预处理模型的基础上，增加交互系统设计，实现相关调度人员通过语音文件录入、麦克风即时录入等方式，实现对电网调度的科学控制。

交互系统设计时，主要涉及电网调度语音识别与预处理系统、语音输入系统。在语音输入系统上采用计算机相关软件实现，相关调度工作人员借助语音输入或者麦克风语音输入的方式，便可以将语音信息输入到电网调度语音识别与预处理系统，被输入的语音信号进入语音识别与处理程序后，感觉语音识别与处理结果进行相应指令操作。

设计的电网调度语音控制系统，除了可以进行单个语音控制外，还可以实现调度后台指令的实时播报，及时将语音十倍于预处理结果告知电网调度管控人员，便于管控人员可以全面、快速地掌握电网运用具体状态，实现对电网的全方位管控，提高电网调度质量。

3 基于人耳听觉特性的语音识别预处理模型测试

从基础的语料库中选取左转、前进、后退、停止、右转等单词各125个样本，作为训练样本，训练样本的环境设置分别为0 dB、5 dB、10 dB、15 dB、20 dB的噪声环境下对人耳听觉特性、语音增强、谱减法等情况进行观察，利用预处理语音识别与处理模型，对数万条重复指令进行试验，试验结果显示人耳听觉特性0 dB、5 dB、10 dB、15 dB、20 dB的噪声环境下语音识别准确率明显高出语音增强、谱减法的方式。如表1所示。

在噪声的环境下，人耳听觉特性语音识别与处理的语音识别准确性依旧很高，0 ～20 dB下，语音识别准确率在94.23%～97.86%之间，说明此种方式具有很好的语音识别与处理能力，且受噪声干扰识别率下将较为缓慢，说明此种语音识别方式具有更好的鲁棒性。

为了进一步提高该模型电网调度语音识别与处理的效率与质量，对当前模型进行进一步优化，采用高质量语音输入设备，确保语音接收质量。

4 结束语

综上所述，基于人耳听觉特性的语音识别预处理模型设计，可以更为真实模仿人耳结构，形成科学的全面的语音识别与预处理模型，为电网调度的智能化控制提供必要技术支持。且在采用基于人耳听觉特性的语音识别预处理模型基础上，可以进一步对调度人员交互系统进行设计，辅助纠正调度员在口述操作票时产生的人为失误，实现电网智能化调度，促进电网管控效率与质量的提高。

参考文献

[1] 史燕燕，白静.融合CFCC和Teager能量算子倒谱参数的语音识别[J].计算机科学，2019，46（5）：286-289.

[2] 周琳，赵一良，朱竑谕，等.基于双耳语音分离和丢失数据技术的鲁棒语音识别算法[J].声学技术，2019，38（5）：67-75.

[3] 张延琛.基于人耳听觉特性瞬态信号的提取方法研究[J].矿山机械，2019，47（7）：58-63.