APP下载

面向智慧家居的音频事件识别及应用

2022-01-20黄楠欣杨盈昀

湖南科技学院学报 2021年5期
关键词:识别率像素点纹理

黄楠欣 杨盈昀

面向智慧家居的音频事件识别及应用

黄楠欣 杨盈昀

(中国传媒大学 信息与通信工程学院,北京 100024)

音频事件识别在人工智能中有重要的应用,例如智慧家居系统中的安全监护。音频监控相对视频监控有不受光线、遮挡物等因素影响优势,但开放环境中的音频事件复杂、相互混叠且只有较少的事件能提供有用的信息。音频场景分析是一件困难的工作。传统单一种类的音频特征很难提高音频事件的识别准确率,在此基础上,提取音频事件的时域、频域和灰度纹理图像特征进行组合及实验方法研究。实验数据采用自创建的音频数据库,实验结果显示组合特征相对传统的单一特征的平均识别率提高了18%。

音频事件识别;音频场景分析;智慧家居

近几年,音频场景和事件识别引起了广泛科研工作者的关注[1]。机器识别环境声音的应用已经深入到人们的日常生活,例如安全监控、生物音频分析和环境保护等[2-4]。最近十年,随着IP网络技术的发展和网络芯片的微型化,几乎可以将世界上任何物体连接到互联网上,从而实现新的服务和创造价值。从而产生了著名的“the Internet of things (IoT)”,与众不同的新兴行业出现,例如智慧城市、智慧交通、智慧家居和智慧穿戴等[5-6],其中音频事件识别在这些新兴行业中占有一席之地。音频事件识别在智慧家居系统中有非常重要的应用,例如针对独居老人的安全监护。在我国,很快将进入老龄化的高峰期。随着社会老龄化日益加剧,独居老人也在持续增长,解决独居老人的养老问题是社区重要的工作。智慧家庭中的音频监控在针对独居老人上有非常广的应用前景。音频场景分析,即通过音频场景和异常音频事件的识别来分析独居老人的安全和行为,例如识别盥洗室的跌倒、客厅中的痛哭、起居室里的呼吸困难等音频事件。

音频事件不同于语音,语音有准平稳性的特点,而音频事件之间的特性相差大,例如有短时的碰撞声音或尖脉冲声音,也有长时间的持续声音。音频场景是由多种音频事件相互混叠而成,采用传统单一特征识别不同类型的音频事件是非常困难的。本文采用组合特征(特征+特征)方法来识别异常音频事件。通常,区分性好的音频特征可以去除原始信号中的冗余信息,实现数据降维。对音频信号的波形进行一系列的转换后提取不同的时域、频域、灰度纹理图像特征进行组合。时域特征主要是提取能反映出音频信号的能量变换、波形相似程度和波形正负改变的频次等内容的特性,主要有时域包络、过零率(ZCR)和短时能量(STE)等。相对时域特征,音频特征中的频域特征更能体现出音频信号的固有特性。音频场景或音频事件识别主要采用音频信号的频域特征,频域特征最常用的梅尔倒谱系数(MFCCs),其他的频谱特征有谱质心(SC)、谱通量(SF)和谱亮度(SB)等。近几年,计算机视觉技术中的纹理图像特征是用来识别音频场景或音频事件的有效方法之一。

1 异常音频事件识别

1.1 异常音频事件类型

视频监控受光线、遮挡物等因素的影响,音频监控可以克服视频监控的不足。音频场景分析的主要任务就是音频事件识别或音频事件上下文关系识别,音频场景一般指有一定物理意义的一系列音频事件的组合,例如说话声、铁轨摩擦声等构成地铁场景。家居环境的音频场景有盥洗室、客厅、起居室、厨房等。异常音频事件是音频场景分析或音频监控重点关注的对象,例如火车站的枪炮声,火车站属于音频场景,而枪炮声属于异常音频事件[7]。文献[8]定义5类异常音频事件和音频场景:尖叫、剧烈咳嗽、哭声、痛苦呻吟、跌倒和家居环境的背景(即音频场景)。在识别任务中,本文将这5类异常音频事件注入到背景声中。

1.2 特征提取及组合

音频事件的识别类似于语音或说话人识别,有效音频特征的提取是识别任务中最重要的步骤之一。工程上,音频特征的提取依赖于特征工程(feature engineering),即为区分音频事件从数据的低阶表示(low-level representations)方式中制作特定的特征,如图1所示。

图1音频事件识别框图

家居环境的音频事件类型多且相互混叠。以目前的技术,识别相互混叠的音频事件是一件不容易实现的事情,且识别率不高。为了提高识别率,研究不同特征的组合或融合方法是行之有效的手段之一。特征组合的具体步骤是首先对音频信号进行分割等预处理,然后提取时域、频域和灰度纹理图像特征,根据实际场景和事件的先验知识进行特征组合,如图2所示。

图2 特征提取及组合

采用计算机视觉技术的灰度纹理图像特征,相对于传统的梅尔频率倒谱系数(MFCC)特征对音频事件识别有较好的性能。局部纹理模式的二进制模式(local binary pattern,LBP)特征在灰度纹理特征中具有代表性,它的提取方式是音频信号转换成频谱图,然后从频谱图转变成灰度纹理图像,再提取LBP特征,该特征特点是能对不同灰度的像数值大小进行统计计算为特征。基本思路是在每个胞腔(cell)根据灰度的中心像素点和它周围8个点值大小进行比较并进行统计,能较好地描述音频信号频域特性的变化。LBP特征计算方式是采用每个区域的中心像素点与它邻近的像素点的值进行比较,如图3所示。LBP特征的计算公式为

其中:c是频谱图一个胞腔(cell)的中心,胞腔的划分通常是采用3×3或5×5的方式;g是与中心点c相邻的点;表示与其相邻点且均匀分布在半径为的圆周上的像素点的数量;本文=8。通过式(1)计算可得到256维的统计值[8]。

1.3 实验设置及结果分析

实验研究音频特征的不同组合及有效性是本文的重点。介绍数据集,实验数据从Freesound网站下载了一部分异常音频事件数据和录制一些音频场景数据。数据集包括5种类型的异常音频事件和真实家居场景,其中异常音频事件的录音数据包含至少一个有完整的音频事件,如剧烈咳嗽,真实家居场景即背景有盥洗室、厨房、起居室等,数据列于表1。

表1 数据集

所有的实验采用交叉验证方法,即从总样本数中随机抽取80%作为训练集,再随机抽取20%作为测试集,共迭代20次,求出平均值,其数学表达式为

第一个实验是提取数据集中音频事件的LBP灰度纹理图像特征并进行验证,其识别结果列于表2。

表2 异常事件识别结果 单位:%

从表2可以看出,真实家居环境的异常音频事件识别,我们把异常音频事件和背景声音串接在一起,从实验检测结果可以看出,灰度纹理图像特征对有类似语音的音频事件,如“剧烈咳嗽”和“尖叫”有较高的识别率,分析原因是这类型音频事件通常在通带内含有较高的基音且有较高的能量。从听觉上来判断,“哭喊”和“痛苦呻吟”有可能判为同一事件,而且这类音频事件通常含有相同的文本内容。

实验对5类音频事件分别采用不同的特征进行识别,然后求出每一个特征的平均识别结果,结果如图4所示。7种单一类型的特征对混杂在家居真实场景的5类异常音频事件识别如图4(a)所示,其平均识别准确率为61%,其中纹理图像特征LBP识别准确率为89%。显然除了LBP特征以外,其他类型的单一特征对音频事件的识别精度不高,也就是说单一种类型的特征对真实环境的音频事件识别率不高。LBP算子是在音频信号的频谱图中的每个像素点得到一个“LBP”编码,对一个记录频率信息的每个像素点的灰度值的灰度纹理频谱图提取原始的LBP算子之后,得到的原始LBP特征依然是一副反映出频率及位置信息的频谱图。LBP相对其他的特征有较高的准确率可能是因为该特征跟音频信号的频率位置信息紧密联系,将一个频谱图划分若干子区域,对每个子区域内的像素点提取LBP特征,然后,在每个区域内建立LBP特征的子区域,对每个子区域的每个像素点提取LBP特征,然后在每个子区域内建立LBP特征的统计直方图。这种特征能较好地统计出每个音频信号的位置频率,从而提高音频场景和音频事件的识别准确率。利用时域和频域的组合特征融合方法对上述5类异常音频事件的识别结果如图4(b)所示,平均准确率为79%,比单一种类的特征提高了18个百分点,显然,特征组合的方法能有效提高真实环境中的音频事件识别率。

图4 单一和组合特征识别准确率

其中,LBP+RQA(recursive quantitative analyzing)两种特征的准确率最高,为93%。原因可能是这类型的特征融合,可以导致较高维度的特征向量,并达到较好的泛化能力。另外,特征在音频特性的描述上互补从而提高音频事件的识别率,例如频谱亮度特性是反映出声音从沉闷到尖锐的变化过程。频谱亮度能粗略指示出频率谱的能量分布情况等,这种特性能很好地体现尖叫、大声哭喊等音频事件的特征。

2 结束语

人工智能时代,智慧家居系统飞速发展,基于音频场景分析在智能安全监控中有重要的应用前景。但真实家居环境中的音频事件种类多且相互混叠,以目前的技术识别混叠的多源音频事件是复杂和困难的任务,采用传统单一类型的音频特征很难达到高的识别准确率。本文研究了音频特征组合和融合的方法,通过实验来证明某一特征组合对音频事件的这些组合特征可以对不同类型的音频事件特征互补。实验证明:这种方法对真实家居环境的音频事件的平均识别精度达到了79%左右,比单一类型的特征提高了18%,其中LBP+RQA特征达到93%的准确识别率。

[1]陈爱武.家居音频场景识别关键技术研究[D].广州:华南理工大学,2020.

[2]BARDELI R, WOLFF D, KURTH F, et al. Detecting bird sounds in a complex acoustic environment and application to bioacoustic monitoring[J]. Pattern Recognition Letters, 2010, 31(12): 1524-1534.

[3]MARIN-CUDRAZ T, MUFFAT-JOLY B, NOVOA C, et al. Acoustic monitoring of rock ptarmigan: A multi-year comparison with point-count protocol[J]. Ecological indicators, 2019, 101: 710-719.

[4]AIDE T M, CORRADA-BRAVO C, CAMPOS-CERQUEIRA M, et al. Real-time bioacoustics monitoring and automated species identification[J]. PeerJ, 2013, 1: e103.

[5]CHAMOSO P, GONZÁLEZ-BRIONES A, RODRÍGUEZ S, et al. Tendencies of Technologies and Platforms in Smart Cities: A State-of-the-Art Review[J]. Wireless Communications and Mobile Computing, 2018, 2018: 1-17.

[6]SHEN Y, HE K, ZHANG W Q. SHome Activity Monitoring Based on Gated Convolutional Neural Networks and System Fusion[C]. DCASE2018 Challenge, 2018.

[7]CHEN A W, HE Q H, WANG X, et al. Home security surveillance based on acoustic scenes analysis[C]. 2017 10th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI), 2017: 1-5.

[8]ABIDIN S, TOGNERI R, SOHEL F. Spectrotemporal analysis using local binary pattern variants for acoustic scene classification[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(11): 2112-2121.

TN912.34

A

1673-2219(2021)05-0033-03

2021-08-15

黄楠欣(2000-),女,湖南永州人,中国传媒大学2018级广播电视工程专业学生,研究方向为数字电视制播。

杨盈昀(1969-),女,四川安岳人,博士,教授,研究方向为智能视音频处理。

(责任编校:宫彦军)

猜你喜欢

识别率像素点纹理
基于局部相似性的特征匹配筛选算法
基于BM3D的复杂纹理区域图像去噪
肺纹理增多是病吗?
一种X射线图像白点噪声去除算法
基于canvas的前端数据加密
图像采集过程中基于肤色理论的采集框自动定位
TEXTURE ON TEXTURE质地上的纹理
档案数字化过程中OCR技术的应用分析
基于PCA与MLP感知器的人脸图像辨识技术
科技文档中数学表达式的结构分析与识别