基于语音识别的社交平台环境净化系统的研究

2020-11-30郝雪燕

科学与信息化 2020年30期

郝雪燕

摘要随着智能手机的普及，社交网络成为人们交流沟通的重要方式，各类基于实时语音的社交平台APP层出不穷，丰富了人们的娱乐生活。人们在社交平台的语音交流越來越频繁，因此，如何通过语音识别系统识别出低俗、垃圾信息，从而对用户进行监管，是当前社交平台环境净化的重要内容。本文研究了基于语音识别的社交平台环境净化系统的关键技术，包括语音识别技术的选取、实时语音转写的流程、模型数据库的训练、关键词识别。

关键词语音识别;社交平台;环境净化

引言

语言是人们用于有效沟通的一种交流方式，人们可以通过语言的交流来传递信息，随着智能手机和网络技术的发展，实时语音类的社交平台近年在全球发展迅猛，如各类直播平台、基于语音的游戏APP，为人们之间的交流沟通提供了极大便利，其渗透人们日常生活的方式之深入、用户数量之庞大，让人不能忽视其影响。社交网络平台的信息传播具有迅捷、开放、碎片化的特点，若缺乏有效的信息管理与审核机制，往往会使低俗语音、垃圾语音充斥在网络环境中[1]。

1社交平台的环境净化的现状

一些社交平台的网络环境治理上有值得借鉴之处。例如，Facebook在处理垃圾信息时，采取的是机器与人工审核结合的模式，并在2017年5月向社会公开了自己的指导手册[1]。而谷歌采用的净化网络环境最新手段核心是“降权”。

目前基于实时语音的社交平台对于低俗、垃圾语音的稽查大多仍然停留在人工进行录音核查、处理的阶段，由于听读录音的效率远不如直接观看文字或者通过机器学习自动识别来的高效，如何提高效率对客服的质量进行把关是亟须研究的问题。目前兴起的机器学习、人工智能等技术可以进行图像识别、语音识别、语义识别等，通过应用机器学习来训练识别低俗、垃圾语音信息的模型，可以自动识别出低俗、垃圾语音信息。

2语音识别技术

语音识别技术是人工智能的一个分支，经过多年的发展，如今已经比较成熟。语音信号经过去噪音、端点检测等预处理之后，提取它的声学特征，经过训练生成模板库，识别的时候将需要识别的语音的特征与模板库进行匹配，分析出语音对应的文字，然后经过后处理，输出最终的识别结果[2]。

从语音识别模型的角度来说，主流的语音识别系统理论是建立在统计模式识别基础之上的。本系统通过建立使用卷积神经网络的语音模型，通过 Web Socket 协议建立客户端与服务器端的长连接，将连续的语音内容即时上传，服务器端实时进行语音识别，并返回对应的文字信息。对得到的语音信息进行特征提取，然后通过与计算机中存放的语音模板的语音特征进行对比，找到最优解，最后使用这种方式可以得到更好地音素识别率。语音识别方法中实际包括语音识别判断和模板数据库训练两部分的关键内容，同时为实现有效的语音识别还往往包含两部分。首先是引入固定标准识别方法进行汇聚和训练，以通过采集得到相应的完整语音参数，将该语音参数进行存储并用做参考模板，经过多个参考模板的整合形成相应的参考模板数据库，以此应用于语音识别的参考标准。其次是语音识别中将参考模板数据库中的模板和被采集的样本进行对比，基于相似度最高的原则进行识别。

3基于语音识别的社交平台环境净化系统的构建

语音识别技术在社交平台环境净化系统构建中的引入，能够规避传统的人工审核的不利影响，同时提升社交平台用户的实际使用体验。基于此问题和要求我们提出了基于语音识别的社交平台环境净化系统的模型。不同的社交平台中出现的低俗、垃圾语音信息有所不同，该系统主要应用大数据技术、人工智能技术对相应平台中出现的低俗、垃圾语音信息进行分析，同时智能语音识别技术还能够对语音技术进行采集，并且将采集到的语音信息转换为文本，结合智能分析技术、数据库比对技术分析文字语音，通过和数据库中模型的对比判定用户的语音中是否存在低俗、垃圾语音信息，对于判别中发现的异常信息可以对用户进行相关处理，如自动封锁账号、禁言等。

4系统测试

通过在某基于实时语音的社交平台APP内进行测试，本系统的语音识别准确率是极高的。该APP为一款基于实时语音的游戏类社交APP，日活用户约为10万人。在使用本系统之前，该APP主要依靠用户举报、人工审核的机制来识别低俗、垃圾信息，很多不当言论因为没有被举报所以并未发现和处理，同时因为人工审核不及时，对APP的用户口碑产生恶劣影响，也增加了APP运营商的运营成本。本系统首先从该APP的原始数据中提取出10000条不当言论的语音信息，使用100条测试数据反复进行特征训练，最终生成匹配该APP的模板数据库。用户在使用APP的过程中，如果被系统识别出了低俗、垃圾语音信息，会立即进行警告处理，情节严重的还会被禁言或者封号，同时和该用户相关的用户也会看到处理信息，这样用户的举报信息就大大减少了，降低了人工核查的工作量。如果用户对处理有争议，还可以人工进行二次核验。通过对比发现，使用本系统前，该平台每天收到的举报信息约为2000条;使用本系统后，每天收到的举报信息约为30条，二次核验信息约为20条。由此可见，应用本系统对于社交平台的环境净化起到了很大的作用。

5结束语

社交平台是随着互联网技术的进步而产生的，平台上的信息对用户社会生活的影响也在不断增强。但是社交平台上信息的即时性和共享性、信息传播网络的动态性，以及审核机制的不完善、审核人缺失的特点，使社交平台网络信息环境存在着天然的缺陷，需要人为进行净化，或采取其他更为有效的信息筛选处理措施。在机器学习和人工智能技术水平不断提高的背景下，其在社交平台环境净化中的应用也是必然的。在人工智能技术的应用中，还必须要各个社交平台的现状与平台用户和运营商的实际需求结合起来，在提升工作效率的同时，提升用户的满意度，以此来维持平台信息环境健康有序地发展。

参考文献

[1] 戴维·邦德.Facebook 网帖审核政策曝光[N/OL].FTChinese， http：//www.ftchinese.com/story/001072698？archive，2017-05-23.

[2] 侯一民，周慧琼，王政一.深度学习在语音识别中的研究进展综述[J].计算机应用研究，2017，34（8）：2241-2246.