APP下载

基于DNN的说话人无关单通道录音分离

2018-12-14徐海青吴立刚浦正国

福建茶叶 2018年12期
关键词:单通道检测器录音

徐海青,吴立刚,浦正国,韩 涛

(安徽继远软件有限公司,安徽合肥 230000)

1 引言

基于客服中心的业务需求,智能客服的概念被随之提出,随着“互联网+”、大数据、深度学习等技术的发展,智能录音技术与大数据、云计算、人工智能结合应用,可以使用海量的数据对录音识别的声学模型、语言模型进行不间断的训练,同时采用内存计算、流计算等技术处理数据转写,将会大大提升智能录音技术识别率,提高录音数据的转写速度。但是目前客服中心的录音工单都是单通道,其录音识别的正确率受到很大影响,需要对单通道的录音分离技术重点研究。在单通道录音分离问题中,神经网络(DNN、RNN)被用来探索目标信号与干扰信号之间的非线性关系以及使用深度集成学习和学习上下文相关信息,即多上下文网络,被发表在张小雷、王德良的研究工作中,体现深度学习方法对于独立说话人无关的单通道语音分离问题的优势[1-5]。

本文假定说话人模型的i-vector距离直接影响说话人聚类的效果,通过实验也证明了这个假设,同时天然地将男性和女性说话人聚成两类,并进一步的分别将男性和女性说话人聚成两个子类,从而用来处理同性说话人混合的情况;通过扩展说话人相关的DNN解决说话人无关问题,进而提出了说话人无关的单通道录音分离算法。

2 基于深度神经网络的说话人无关录音分离系统

本文的设计基于DNN的录音分离系统主要是解决单通道的录音分离问题,为此,本文设计的系统存在两个阶段:前期的模型训练以及录音分离。系统的过程如图1所示,在训练阶段,主要是利用提取的录音对数功率谱特征训练聚类模型(通过说话人i-vector模型[5]距离的大小实现说话人的聚类)和基于聚类结果训练不同的DNN分离模型;在分离阶段,先是构造未知说话人测试集,并将提取的特征送入说话人组合检测器,然后根据检测器的判断结果选择对应的分离器处理该混合录音数据。

图1 未知说话人的录音分离系统

3 实验结果

3.1 实验配置

3.1.1 SSC数据库

本文的测试和训练集合都是采用基于SSC数据库(Coookie and Lee,2006)中的录音数据来构造的。

(1)训练集。在训练阶段需要训练分离器和检测器,前者使用200小时混合录音,后者使用100小时的混合录音数据,数据分布如表1所示。

表1 训练数据集

(2)测试集。由于数据集中说话人有限,从M1,M2,F1,F2四个子类中分别挑选了3个说话人生成测试集,保证了测试集的说话人的不可预测性,具体如表2所示。

表2 测试数据集

(3)DNN训练。设定初始学习率为0.1,在前10次的迭代训练中学习率保持不变,再以学习率衰减0.1方式进行40次迭代训练,训练集是包含128个样本的最小批。DNN包含3个具有2048个节点的隐层,使用sigmoid激活函数,输入层为1700多个节点,输出层为514个节点。

3.2 实验结果分析

3.2.1 说话人组合检测结果

通过数据的测试,为了选择合适的检测器,基于包含40句男性和40女性的混合录音开发集,测试GMM-UBM、CDNN、RDNN检测器在相应门限值的范围内?? [0.1,0.9],?? [ 0.59,0.69]和??[8,16]的检测性能,结果如图2所示。

由图中可以发现基于开发集的RDNN最优检测率为94.73%,GMMUBM检测器为79.14%、CDNN检测器为92.0%,RDNN检测器的检测效果最好。基于测试集,检测率变化情况类似。RDNN检测器也是最优的高达94.75%。

3.2.2 录音分离结果

在这一部分,通过在STOI指标和PESQ指标上对比基于DNN的说话人无关录音分离系统和经典的CASA。

异性说话人混合录音分离结果:在表3中,对比了基于DNN的说话人无关录音分离系统和CASA系统分离异性说话人时的PESQ和STOI结果。虽然RDNN检测器存在一定的检测错误,但是对于这部分错误检测的语句使用不匹配的分离器进行分离以后,最终的整体结果在所有的输入信噪比条件下仍然要比CASA系统要好很多。

表3 PESQ和STOI结果对比表

4 结论

本文提出的基于DNN的单通道录音分离系统,能够实现无先验信息的情况下单通道录音的角色分离。本文在构建检测器时,通过对比高斯混合-通用背景模型、分类深度神经网络检测器和多输出回归深度神经网络检测器三种检测器的性能,选择了性能最优的RCNN检测器。并在本文的最后实验证明了在对比STOI指标和PESQ指标上基于DNN的分离系统的分离效果优于比经典CASA系统。

猜你喜欢

单通道检测器录音
基于联合聚类分析的单通道腹部心电信号的胎心率提取
Funny Phonics
funny phonics
Listen and Choose
Listen and Color
基于二次否定剪切选择的入侵检测方法*
模拟电视发射机数字化改造方法的探讨
车道微波车辆检测器的应用
一种柱状金属物质量检测器的研究
模拟电视发射机数字化改造方法的探讨