APP下载

一种基于灵犀云平台的速记产品设计方案*

2017-09-30田原裘思科林彦伊

电信工程技术与标准化 2017年9期
关键词:速记灵犀会议纪要

田原,裘思科,林彦伊

(咪咕数字传媒有限公司,杭州 320000)

一种基于灵犀云平台的速记产品设计方案*

田原,裘思科,林彦伊

(咪咕数字传媒有限公司,杭州 320000)

本文通过录音输入、录音文本转换、行业资源库定制优化、适用场景解决方案等几个部分涉及实现了灵犀速记产品。该产品有效的解决了不同场景、不同行业的会议纪要的采集、分析和展示的问题。

实时转写;角色分离;自动分段;音字对照;关键词优化

1 引言

伴随着人工智能技术的快速发展,尤其在DNN/CNN/RNN等深度学习技术算法的推动下,人工智能从感知智能向着认知智能发展、从能听会说向着能理解会思考发展。目前人工智能已经在解决复杂度低、重复率高、人工投入量大的场景问题的方向上大显身手,但是在行业深度应用上未有明显突破。

为了解决会议、办公、教学、法庭庭审等场景下的会议纪要自动记录要求,本文通过采用人工智能技术通过解决语音输入、录音文本转换、行业资源库定制优化、适用场景解决方案等几个方面,设计开发了“一种基于灵犀云平台的灵犀速记产品设计方案”。该方案致力于有效实现不同行业、不同场景的会议纪要的采集、分析、展示、分发、储存等问题的解决。

2 会议纪要记录的现状及难点

日常生活中的会议、办公、教学、庭审等场景下会议纪要,目前主要是依靠类似于“书记员”这一岗位的负责人进行人工记录、整理输出。人工整理方式费事耗力、准确率低,会议记录结果受会议纪要整理人个人素质影响较大,并且存在一定的主观性。

当前会议纪要记录的主要难题总结如下:

会议过程中:记录工作量繁重、信息记录不全面、内容准确率较低;

会后整理时:纪要整理费时耗力、录音整理困难、模糊信息难以复核;

纪要发出后:安全管理有风险、信息检索难度大、快速传播难实现。

随着社会的发展,人工记录会议纪要的方式在时效性、准确性、传播性等方面逐渐无法满足工作要求。迫切需要应用新技术进一步研究会议纪要自动记录的方法。

随着深度学习DNN/CNN/RNN的应用,智能语音技术飞速发展,大大降低了语料训练周期、提升了建模效率及准确性,为智能会议速记方案应用的落地奠定了技术基础。

3 智能会议速记方案技术难点

在日常工作中“会议”场景下产生的是人人对话下自然语言数据,数据中包括了背景音、环境噪音、多方通话等所有内容,人工基于对人员的熟悉可区分发言内容并记录下来,但是语音技术需要基于非标准、非洁净的原始数据、通过一系列的降噪等技术处理后才可以进行开展智能速记工作。

会议速记方案主要难点如下:方言与口音适配;行业专业词汇;角色分离;交谈式口语化发音;噪声干扰解决。

4 灵犀速记产品设计方案

通过充分考虑现场会议中的所有一切干扰因素,并采取相应的智能语音技术进行分析处理,最终实现了可以满足工作要求的灵犀速记产品设计方案。

本方案支持在会议场景下以符合安全要求的离线语音转写方式将发言语音内容实时转换成文字内容,保证了转写的准确性、实时性、效率。可以满足日常会议、报告演讲、指挥调度、录音整理等一系列需要进行语音实时文字转写场景的使用需求。

4.1 方案功能设计

本方案从实际工作出发,按照工作要求提供了会议音频管理、即时校对编辑、敏感词屏蔽、转写文字实时直播等基本功能,同时可提供延时播放、按句回听、重点标记、提供语气词过滤、自动分段等功能自动优化文字结果、提供全文检索功能方便检索历史音频等等功能,方便方案使用者快速整理输出会议材料。

方案核心功能点:

(1)实时转写:普通话转写正确率达到90%,支持识别带口音的普通话。

(2)离线转写:只是多条数据同时转写,比如20路音频同时输入。

(3)实时编辑:针对转写结果实时编辑,演示播放,当编辑后成稿输出。

(4)角色分离:通过硬件自动、手动等方式对说话人进行角色分离。(5)自动分段:VAD检测、关键词、等方式自动分段。(6)关键词优化:针对行业资源库进行关键词优化、提升识别准确率。

(7)音字对照:针对会议纪要结果,按照操作人要求进行回溯。

(8)全文检索:按照关键词、关键句等方式会听搜索结果。

(9)内容分享:会议纪要生成后,会同时生成二维码,扫描二维码即可查看会议纪要。

4.2 方案架构设计

按照速记方案设计及功能使用效益最大化开展方案使用场景梳理结果,设计了一体式、便携式和网络版3种灵犀速记产品架构。

4.2.1 一体式产品架构

一体式产品架构设计为软件、硬件共同构成,适应于部署固定会场等场景,实现将会议发言内容实时转写成文字、实时编辑等速记功能。在此基础上可以提供辅助会议记录人员进行纪要的整理与校正功能、提供上屏展示功能,转写的文字能够在大屏上实时呈现等辅助功能,在整体上打造智能语音会议室。

4.2.2 便携式架构

便携式架构设计为一款软硬件结合的单机产品,设备主体为1台便携式笔记本电脑,可以在移动场景下使用。产品的核心功能应包括实时音频转写和导入音频转写等,并支持对转写结果的编辑、导出等操作。便携式架构界面简洁、设备轻便,整体定位为工具化的语音转写设备。

4.2.3 网络版架构

网络版架构设计为基于企业内已有的办公专网进行搭建,由服务器平台和部署在各会议室/个人办公电脑的终端设备构成。服务端的软硬件设备部署在中心机房,服务器采用分布式部署结构,需要结合具体的业务规模估算服务器数量;终端侧结合具体的应用需求,完成会议室内终端软硬件的建设、以及个人办公电脑端的软件能力接入。

4.3 灵犀速记产品设计

基于速记方案设计、架构设计、考虑了智能会议系统的技术难点等方面开展了灵犀速记产品设计。该产品设计可有效解决方言干扰、环境噪音、行业关键词、角色分离、口语化交流、算法及技术应用等关键点,在保障产品准确性、效率、易用性的基础上,实现了灵犀速记产品功能。

灵犀速记产品设计要点如下。

4.3.1 端点检测

端点检测是对输入的音频流进行分析,确定音频的起始和终止的处理过程。一旦检测到用户开始说话,语音开始流向识别引擎,直到检测到用户说话结束。端点检测功能是在用户在说话的同时即开始进行识别处理,降低环境噪音的影响,该技术的一个诱惑力的特点是检测准确率明显高于基于能量的方法,SNR越不好,效果越明显。但是在训练环境与实际环境不符合时,效果特点不好。因此在本次方案中采用了模型和时域方法相结合,可以做到较好的端点检测效果。

端点检测模型如下:

HMM:这个应用用分布表达语音的分布情况。

MLP:根据频域和时域区分性特征,达到分类的效果。

DNN:主要训练噪声模型。

端点检测算法如下:

端点检测程序流程图如图1所示。

图1 程序流程图

参数设置说明:

4.3.2 篇章级处理技术和口语风格处理技术

解决会议场景下的人人对话转写问题的难点在于其场景的复杂性与影响因素的多样性,实际应用中不仅需要处理海量的人人交谈数据,更核心的是需要在海量数据基础上进行建模,灵犀速记产品通过篇章级处理技术和口语风格处理技术如图2和图3所示,解决了这一难题。

图2 篇章级处理技术流程图

图3 口语风格处理技术流程图

4.3.3 混响降噪

混响降噪一直是语音转写的一大难点,实际应用中,背景噪声对于语音识别应用是一个现实的挑战,即便说话人处于安静的办公室环境,在会议过程中也难以避免会有一定的噪声。对于为了听感而录制的有损失的语音,灵犀速记综合利用DNN加混响技术和DNN去混响技术,解决远场录音的混响问题,以适应用户在千差万别的环境中应用的要求。

通过自下而上的逐层训练RBM的方式生成DBN模型。

语音增强,主要目标是从呆噪声的信号中提取尽可能纯净的原始语音信号,提高语音信号的质量,清晰度和可懂度。应用深度学习算法,进行语音增强。

4.3.4 双向RNN技术以及CTC建模技术

灵犀速记采用最近两年才应用到语音识别技术中的最新的双向RNN技术如2图4所示和当下比较火的CTC建模技术如图5所示,提升语音识别率,目前效果对比中识别率比DNN技术和双向RNN技术分别相对提升了25%和10%。

4.3.4.1 双向RNN技术

双向循环神经网络(BRNN)的基本思想是提出每一个训练序列向前和向后分别是两个循环神经网络(RNN),而且这两个都连接着一个输出层。这个结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息。

4.3.4.2 CTC建模技术

Connectionist Temporal Classifier,适合用于输入特征和输出标签之间对齐关系不确定的时间序列问题,可自动端到端的同时优化模型参数和对齐切分的边界。将CTC建模技术与RNN技术结合使用,可将两个发音单元之间混淆或不确定的区域映射到“Blank”节点(传统“固定边界对齐”的方法将该模糊区域强制分类为左边标签,右边标签或者停顿,存在天然的缺陷),将传统的“轨迹”建模转化为“差异性”建模,使得模型更加关注一个发音单元与其他发音单元之间的“差异性”,减缓了传统模型需要完整的描述该发音单元全部信息的建模负担。

4.3.5 行业关键词优化

图4 双向RNN技术

图5 CTC建模技术

行业关键词优化是提前将应用行业热词、专业术语、同音易错词等置入产品数据库中,在说话者发言的时候,如有类似的语音内容,系统会自动进行检测、并识别为该特定词语。

使用行业关键词可提升行业语音识别准确率:

(1)建立行业关键词词库:分类整理行业关键词保障行业关键词涵盖整个行业;

(2)建立行业关键词定期优化机制:以季度为周期,通过关键词挖掘工具,将挖掘后的行业关键词优化到现网资源库中;

(3)关键词权重分析:关注日常使用的关键词的使用频度,根据使用频度和场景赋予关键词相关权重,便于后续进一步分析。

4.4 方案技术优势

语音转文字准确率高,中文标准普通话的转写准确率平均可达90%;

数据安全性强,采用独立专业服务器,不需联网,可有效避免会议内容和信息的外泄;

可针对发音人口音和应用领域进行定制优化,持续提升转写效果;

可根据转写内容快速检索录音内容,提取会议纪要,实现会议录音管理。

5 灵犀速记产品价值

灵犀速记产品方案解决了会议等自然语

言交流场景下内容记录难、内容管理难、内容追溯难等问题。相比于传统的人工记录方式,灵犀速记产品具备以下优势。

5.1 更高效

灵犀速记产品能够提供实时转写功能,转写过程中支持同步编辑及重点内容标记,可保证在会后30 min(10 min提取纪要+20 min检查优化)内即可出稿。相比于当前的人工记录方式,出稿效率可提升8倍。

5.2 更完整

灵犀速记产品实现对全部发言内容的记录,数据化的“文字”更容易触发个人对信息的重视程度,有效避免信息的遗漏。

5.3 更准确

灵犀速记产品能够提供对与会人员发言内容的高保真记录,且可以通过文字定位并回听语音,达到声文对应,辅助记录人员更好的理解会议思想、提升纪要结论或纪要决议的准确度。

5.4 更安全

灵犀速记产品的应用,能够大大降低对记录人员的要求,1名普通的员工在会后简单编辑即可出稿,不需要外聘速录人员、内部参与的员工也控制到最少,只需要做好设备的安全管控,就能有效保障会议信息安全。

5.5 成本更低

灵犀速记产品的应用,能够替代需要速记人员记录的场景,能够缩减专职记录人员的数量,系统作为一次性投资资产、其解放的人员及劳动成本是永久的,真正实现会议办公业务的降本增效。

[1] Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J].Audio, Speech, and Language Processing, IEEE Transactions on,2012,20(1): 30-42.

[2] Xuedong Huang/Alex Acero/Hsiao-Wuen Hon. Spoken Language Processing. Prentice Hall PTR. 2001,35(1):20_80.

[3] 俞栋,邓力. 解析深度学习:语音识别实践[M]. 北京:电子工业出版社, 2016.

[4] 修国浩. 基于WD/HMM的语音识别算法研究[D]. 秦皇岛:燕山大学, 2004.

A product design porject of shorthand based on the lingxi-cloud platform

TIAN Yuan, QIU Si-ke, LIN Yan-yi
(Migu Digital Media Co., Ltd., Hangzhou 320000, China)

This article through the recording input, recording text conversion, customization of industry resource library optimization, for the application of several parts of the scene involved in the realization of the consonance shorthand products. The product effectively solves the problem of collecting, analyzing and displaying the meeting minutes of different scenes and different industries.

real-time transliteration; role separation; automatic segmentation; sound-word contrast; keywords optimization

TN929.5

A

1008-5599(2017)09-0033-06

2017-08-25

* 中国移动集团级一类科技创新成果,原成果名称为《灵犀云平台灵犀速记产品研发项目》。

猜你喜欢

速记灵犀会议纪要
灵感速记
树没有家
你照顾
30小时速记3000个单词 抗遗忘®英语单词速记
30小时速记3000个单词
写诗拾趣
第十次中国老年口腔医学学术年会会议纪要
“2016智能焊接制造青年学者论坛”会议纪要
“环境与健康风险评估年会”会议纪要
游戏二速记牌