基于智能语音识别技术在医疗病历录入领域的应用探索

2021-06-04赵媛媛

科技经济导刊 2021年14期

赵媛媛

（长治医学院生物医学工程系，山西长治 046000）

1. 语音识别技术在医疗领域应用的可行性

随着深度学习算法的日益发展，建立在信息化普及及行业大数据基础上的人工智能技术将有可能比以往更能在医疗领域内解决实际问题并获得前所未有的成功。其次，近年来，我国也出台一系列政策、建议，不断推动人工智能在医疗领域的快速发展。2017年12月，国家卫生健康委印发的《医院信息化建设应用技术指引》中，明确了人工智能技术在医院可开展疾病风险预测、医学影像辅助诊断、临床辅助诊疗智能健康管理、医院智能管理、虚拟助理等6大种类应用建设。其中，第259项虚拟助理，指按医生指令和需求搜集、整理和推荐信息，支持语音识别、自然语言处理等引擎，支持基于机器的智能分诊、辅助诊断、电子病历书写等功能，支持基于知识图谱的智能辅助诊断和用药推荐等功能。即明确了语音识别技术在医疗领域的应用的可行性。

病历收集和整理临床资料的重要途径之一，也是医学临床研究的重要组成部分。对医生来说，病例的重要性不言而喻。电子病历的根本目的是将医生从繁多、繁琐的文字工作中解放出来。但由于不同医院的信息系统搭载的系统数据、模板、检查方式等不够科学严密，导致有50%以上的住院医生平均每天用于书写病历的时间长达4小时[1]，且该数据仍在增长中。尤其是门急诊处作为医院病人流转率较高的两个部门，每天要处理大量病人，如此的电子病历录入时间，将会极大缩短医生与病人的有效沟通时间，减少病人流转率。若将智能语音识别技术应用于病例录入领域，进行实时的文字记录，将能更加及时、准确地记录患者在就医过程中的主诉症状、既往病史、诊断结果、诊疗过程，进而大幅提高医生的工作效率。

2. 语音识别技术的基本原理

语音识别是一门交叉学科，涉及到信号处理、模式识别、概率论和信息论、发生机理和听觉机理等领域。作为模式识别的分支之一，其根本目标是利用各种技术、算法，对原始语音信号进行处理、训练，形成参考模型，根据该参考模型，实现对后期捕捉到的语音信号的分类和解释。其基本的原理如图1所示[2]，主要包括两个阶段：训练阶段和识别阶段。训练时，对语音段预处理后，进行特征提取，形成每个使用者的模型参数，同时进行模型的存储，形成语音数据库。识别时，对被识别信号预处理后，提取其特征参数，并与之前训练阶段产生的参数模型比较，根据一定的搜索和匹配策略，得到结果并输出。由此可见，语音识别的准确率与选择的特征、语音模型、与处理结果都有关系，缺一不可。

图2. 1 语音识别基本原理图

3. 语音识别技术在医疗病历录入领域的应用

3.1 国外应用现状

在发达国家，已有相对成熟的语音识别产品进入医院系统，为医生缓解病历书写的工作压力。比如专门从事语音识别软件、图像处理软件及输入法软件研发的Nuance公司的英文语音产品Dragon NaturallySpeaking9,其覆盖全美72%的医疗机构，最高语音识别率达99%，轻松实现医生口述患者病例，设备自动记录功能。Amazon公司开发的语音助手Alexa不但能够回答医疗问题，提供医疗信息，还可以集成到电子病历中，成为一个被动的记录者，实现高效的信息录入。初创于2015年的Saykara，其团队专注于语音识别技术在电子病历上的应用，其推出的人工智能语音助手可以自动创建文档，简化工作流，让医生更容易与EMR系统进行交互。数据表明，使用SayKara的医生在管理电子健康记录上花费的时间减少了70%。

3.2 国内应用现状

我国的语音识别技术在医疗领域内起步较晚，但近几年已取得长足发展。2017年，科大讯飞与中国医学科学院北京协和医学院签署全面战略合作框架协议，即科大讯飞的口腔科语音电子病历系统正式在北京协和医院投入使用。该系统包括一个可以夹在医生领口的医学麦克风，一个可以装在医生口袋的发射器，还有一个可以插在医生工作电脑上的接收器。在接诊过程中，医生只需要以口述的方式说出患者的病历，医生的工作电脑上就会自动生成结构化的电子病历。之后，只需医生对电子病历内容进行简单修改确认，即可打印提供给患者，并完成电子档案保存。

云知声智能医疗语音录入系统以面向医疗领域的高性能识别引擎为基础，通过语音和手持设备上的功能键与医院内HIS系统交互。医生通过语音录入的方式，规范病历输入，增加病历输入安全性。目前，云知声已在多家代表性的大型综合三甲医院正式上线使用，这些医院分布在全国各地、各区，具有极强代表性。根据统计的使用数据，该系统的使用有效节省医生约38%的时间，相当可观。

4. 关键技术

4.1 前端语音数据处理技术

语音数据的前端处理包括端点检测、特征参数提取两个部分。医疗系统的病例的关键字可看作是孤立字或孤立词类。因此，准确获取有效语音信号的开始点及结束点，作为正确处理语音信号的基本问题及进行语音信号预处理的前提在孤立词识别中尤为重要。目前，语音信号端点检测方式主要包括短时能量、短时平均过零率、短时自相关、频域端点检测等。其中，短时能量需要选择合适的窗函数；在噪音的相关性呈现下降趋势时，短时自相关函数对噪音和静音的区分能量较弱；环境噪声较大或变化剧烈的情况下，频域端点检测方式要更理想一些。根据以上方式的优缺点，在实时处理医疗系统的病例信息时，要根据不同的科室需求，选择不同的前端语音数据处理技术。这意味着想要在整个医院病例领域应用语音识别技术来获取信息，需要设计多种前端数据处理模块来满足需求，这在技术上是一个难点。

原始有效语音信号所携带的数据量巨大，对于硬件系统的运算负担过重；此外，原始语音信号还包含了诸如噪声等大量随机因素，这些因素对系统的识别率有很大影响。提取适合的语音信号特征参数，可以有效降低信号冗余度，使得模板训练和模式匹配的数据特征更加明显，减轻系统运行负担。当前，在语音识别技术中，常用的特征提取方法是梅尔倒谱系数MFCC、线性预测倒谱系数LpCC。两种算法各有优点。但在我国医疗系统内，以汉语为主，需要对辅音部分有较强的分辨能力，同时考虑到语音信号的价值信息多集中在低频部分，在有信道噪声的环境中，更需要追求高识别率，MFCC算法更有优越性。

4.2 基于HIS系统的语音数据传输协议及通信机制

电子病历系统属于医院信息管理系统HIS的一部分；而HIS系统本质上属于分布式管理系统，且其内部数据属于局域网内部的传输数据。要将语音识别技术嵌入到该系统中，实现应用，则语音数据必须遵循医疗系统内部客户端与服务器端之间数据传输的相关协议（即使用语音识别技术调用客户端程序软件，比如实时传输协议（Realtime Transport protocol，RTp）。

RTp是由IETF的多媒体传输工作小组于1996年公布的网络传输协议，该协议详细说明了在互联网上传递音频及视频的标准数据包格式，为数据提供了具有实时特征的端对端传送服务。但其本身没有提供按时发送机制及其他服务质量保证，即该协议不保证数据传送及底层网络的可靠性。因此需要和RTp控制协议RTCp一起使用，来监控服务质量并传送正在进行的会话参与者的相关信息。

其次，将语音识别技术应用在HIS系统中，本质上也属于网络中的本地进程间的通信方式。而这样的通信方式有很多种，包括但不局限于消息传递、共享内存、远程过程调用等。根据RTp控制协议创建在UDp协议之上，而UDp协议与TCp协议相对应的特征要求，将语音识别技术应用在HIS系统内的病历书写领域，选择并建立合理的基于Socket传输机制的服务端与客户端的通信方式也是其关键技术之一。

4.3 服务端语音识别技术

语音识别的最终结果即要求在服务端找到一个相匹配的模型序列，以求真实、准确地描述输入的语音信号的语义。常用的识别搜索技术有动态时间规整技术DWT、矢量量化技术VQ、隐马尔可夫模型技术HMM、人工神经网络技术ANN等。其中，DWT技术的识别性能过分依赖于端点检测，同时需要与所有模板进行匹配，工作量大；VQ技术的信息保密性能较强，但训练过程的计算方法复杂；ANN技术具备良好的容错性和学习特征，但对语音信号的动态时间特性描述力较差。HMM技术虽然相较于其他技术，更贴近人类语音活动的随机性，识别率更好，但在中文语音识别中，因其发音、语法相较于英文具有较强特殊性，导致单一的识别技术在实际应用中并不能取得良好的识别效果。为适应更多的应用场景，提高识别率，增加通信数据安全性，通常的方式是将不同的识别技术进行组合。

5. 存在问题

将语音识别技术应用于门诊病历录入领域，其主要目的是实现医疗报告的实时输出，提高医生工作效率。考虑到医疗门诊信息的特殊性，该技术的应用需要更侧重于强实时性、高准确率及数据传输的安全可靠。但由于智能语音识别技术本身发展时间短，医院信息化建设尚未完全成熟，因此，在两者结合过程中仍有太多问题亟待解决。

首先是环境噪声问题。在门急诊部，外部环境噪杂，语音识别的干扰项多，在预处理阶段，目前仍未有理想处理方法能进行完全去噪。这将大大影响最终的识别结果。其次，在当前的语音处理技术中，尚无法解决多音字、协同发音[3]及地方性口音问题，在引入并合理使用语言模型及声学模型之间的自适应技术方面，仍有太多内容需要深入研究、探索。第三，在门诊部门，不同科室有不同的专业词汇，且量巨大，开发该项技术应用，需要建立包含这些词汇的识别数据库并且能实时扩充，此种情况下，识别过程的计算量许将呈指数增长，为算法程序及传输硬件带来更大的新挑战。