智能语音识别技术在超声审核工作站的研究与实践

2020-11-16鲁晓张勇李昕

数字技术与应用 2020年9期

鲁晓张勇李昕

摘要：目的：在超声审核工作站应用智能语音识别技术，提升超声报告审核效率。方法：通过市场调研，选用科大迅飞阵列台式麦克风，安装在集中阅片室用于报告驳回意见的智能语音录入，在保证软硬件的基础上建立专家数据库，对语句进行修改完善，最后完成意见填写。结果：智能语音识别技术在超声审核工作站应用1年来，1份超声报告的驳回意见填写时间从原来的1min缩短至20s，效率提升3倍。结论：在超声审核工作站中应用智能语音识别技术，可以节省医师审核时间，提升超声报告审核效率。

关键词：超声;麦克风;智能语音;审核

中图分类号：R197.3;TN912.34 文献标识码：A 文章编号：1007-9416（2020）09-0056-03

0 引言

随着超声检查普及程度的提高，超声医学科每天的病人就诊数量不断上升，在保证超声检查质量的同时需要加快检查速度，随之集中阅片室医师的工作量也相应加重。近年来智能语音逐渐走进人们的生活，手机、家电、家具、机器人、自动驾驶汽车无处不改变着人们的生活方式[1]。国家高度重视智能语音的相关研究，投入大量人力物力助力智能语音研究。智能语音在改变我们生活的同时，在生物医疗领域也得到不断发展[2-3]。国内许多机构对智能语音在医疗方面做了相关研究分析，为智能语音在医疗机构的应用指明了方向[4-5]。经过阶段性临床实践应用，智能语音识别技术在病历录入、智能问诊信息采集等方面的优势使其在门诊、急诊、病理科、放射科等科室得以一定程度应用，受益颇丰[6-7]。超声医学科为了适应超声检查不断产生的新需求，超声医学科积极优化超声检查流程，提升超声检查效率。智能语音识别在超声工作站的应用相对缓慢，原因是超声检查的特征决定的，超声检查在检查部位、检查报告、检查类型的多样性使得其专业术语和习惯用语多样，超声检查人员众多、环境嘈杂，对于语音录入有着更高的要求[8-9]。为了适应超声检查的新需求，超声医学科与科大讯飞合作探索智能语音识别技术在超声检查过程中的应用可能，初步在超声审核工作站得以应用实践。

1 超声工作站面临的问题

四川大学华西医院超声医学科的医疗工作实行超声医技协同、分级诊疗的新模式，在这种模式中，超声技师和学员级医师承担大多数普通超声的筛查和检查工作，高年资超声医师则承担超声会诊工作及更多的专科超声、介入超声工作。超声医学科于2019年5月开始在原有的超声检查工作站中新构建超声审核工作站，审核工作站建立后，超声技师和学员级医师在检查室坐诊，完成病人的图像采集和描述，医辅人员完成图文报告编辑并上传到医师审核工作站，审核医师在集中阅片室同时进行多个检查室报告的审核。如果审核通过则病人可在自助打印机进行报告打印，如果审核不通过，则需要进行报告驳回，并填写驳回意见。审核系统建立之初，采用键盘输入的方式进行驳回意见填写，然而通常一份报告的驳回意见需要书写多行文字，耗时费力，所以超声医学科引用科大讯飞的台式麦克风搭配讯飞输入法实现智能语音录入，旨在提升医师驳回意见填写速度，从而审核医师有更多的时间进行报告审核，进而提升审核效率。也为后续的超声检查报告的语音录入建立一定的基础。

2 智能语音识别的原理

智能语音识别是语音信号处理的一个分支，涉及信号处理、声学、模式匹配、语言语音学、计算机科学、心理学等理论的交叉学科。智能语音识别技术是接收输入的语音信号，对输入语音信号进行预处理、特征提取、模型匹配，最后输出语音识别结果。智能语言识别的原理框架如图1所示。

语音预处理中噪声滤波消除、端点检测最为重要。噪声分为随机环境噪声和固有电源工频干扰噪声，一般为50Hz。端点检测的目的是把有用的信号从语音输入信号中提取出来，即确定有用信号的起始点和终止点，识别语音信号和非语音信号这样既能缩短后端语音信号处理的时间也能排除无用信号的干扰，从而提升语音识别的有效性。

语音特征提取包括时域特征和频域特征。时域特征包括短时平均幅值、短时过零率、过均值率、短时能量等。频域特征包括线性预测分析、感知性预测系数、线性预测倒谱系数、梅尔频率倒谱系数等。

声学数据库和语言数据库是针对智能语音识别的应用场景构建的具有针对性的数据库。这两个数据库需要提前对大量数据进行训练分析，也就是所说的自学习系统，从而提取出有用的数据模型构成数据库;另外，在识别过程中，自学习系统会归纳用户的使用习惯和识别方式，然后将数据归纳到数据库，从而让语音识别系统对该用户来说更智能。

专家知识库用于存放于应用场景对应的背景知识、常用词句等，对句子进行智能语义组合，仔细分析上下文的相互联系，对当前正在处理的语句进行适当修正，最后进行结果輸出。

3 智能语音识别设备选用及在超声工作站的初步实践

3.1 智能语音识别设备选用

超声医学科选用科大讯飞台式麦克风IMI-G100，科大讯飞是亚太地区在智能语音录入的标杆，近年来在医疗领域也得到长足进步。科大讯飞台式麦克风有着多种特性，适用于超声医学科的工作环境。

3.2 语音唤醒

通过设定唤醒词，麦克风在休眠状态下也能检测到医师的声音，让处于休眠状态下的麦克风直接进入到等待指令状态，快速开启语音录入。这样能使超声医师可以通过唤醒词，快速实现语音录入，节约时间。

3.2.1 声源定位

传统的单个麦克风的声音听取质量与声源距麦克风的距离息息相关，距离越近失真越小。如果想要获得理想的声音质量时，麦克风的位置需要随着声源位置的变化进行改变[10-11]。同时集中阅片室会有多位会诊医师同时会诊的情况，会诊医师的声音会受着其他各类噪声的干扰，包括室内声音的反射和混响，都会大大降低声音质量，从而影响后续的语音处理。IMI-G100采用四麦阵列，可实现360度定位，阵列麦克风具有较强的空间选择性，能很好地实现声源定位及跟踪，从而可实现语音增强、回声消除等。

3.2.2 远场拾音

讯飞麦克风可实现最远5米距离的拾音，能保证会诊医师在较远的距离也能实现语音录入。

3.3 专家数据库建立

专家数据库可以用于存放医师在审核工作中的常用词句或者模板进行有效管理，审核医师可以根据对专家数据库的数据进行增加、删除或修改。专家数据库用于在语音形成句子后，在输出前的最后修正，智能语音识别系统是否足够智能，与专家数据库数据的準确性和丰富性息息相关。审核医师把常用的短语、专用词汇、简短语句录入数据库中后，系统对最后的语句进行词句匹配，这样让语音识别系统更能听懂审核医师的审核意见，并进行同音字判断，最大限度减少错别字。

3.4 智能语音识别设备在超声工作站的初步实践结果

超声医学科于2019年5月开始在超声工作站中启用智能语音录入的方式实现对驳回意见的快速录入，原来一份报告的驳回意见填写平均需要1min左右，智能语音录入系统上线后，一份报告的驳回意见时间基本在20s以内，效率提升三倍。这样会诊老师将有更多的时间用于报告的审核，进而也提升了报告审核的质量。

4 结论与展望

智能语音识别技术经过数据库模型的建立，可很好地应用于超声审核工作站，目前能提升会诊医师的报告审核效率，降低工作强度。这为超声报告录入系统的智能语音录入建立一定基础。超声医学科将继续构建用于超声报告录入的智能语音系统。进一步优化超声检查流程、节约人力资源、提升超声检查效率。

参考文献

[1] 李刚.智能语音识别技术的架构与设计[J].电脑知识与技术，2018，14（18）：175-177.

[2] 王飞，胡川，罗浩，等.医疗场景智能语音识别技术的应用研究[J].中国数字医学，2019，14（12）：19-21.

[3] 孙国强，赵从朴，朱雯，等.智能语音识别技术在医院应用中的探索与实践[J].中国数字医学，2016，11（9）：35-37.

[4] 贾孟成.语音识别技术在医疗领域中的应用与思考[J].中国新通信，2019（3）：69-70.

[5] 刘晶，罗进城，左秀然.基于语音识别的移动电子病历应用探索[J].中国数字医学，2018，13（4）：23-25.

[6] 李金苗，李鹏，刘庆金，等.智能语音识别技术在临床医疗的应用研究与实践[J].中国卫生信息管理杂志，2019，16（2）：218-221.

[7] 张海波，周民伟，刘晓辉，等.智能语音识别技术在医院临床的探索与应用[J].中国卫生信息管理，2017，14（5）：660-663.