基于长短期记忆模型的患者投诉自动分类研究

2018-03-22,,,,,

中华医学图书情报杂志 2018年6期

,, , ,,

患者投诉是指患者参与医疗活动时，由于医务人员医疗机构未能满足他们的预期而产生的抱怨[1]。患者投诉中包含了大量与医疗服务质量和医院管理水平相关的信息，如果利用得当，能够改善医疗服务质量，提升医院管理水平，有效避免医患纠纷[2-5]。日常工作中，医疗机构会收到大量患者投诉，这些投诉会针对不同的问题[4]。处理患者投诉的第一步就是进行患者投诉分类，以便将不同的问题分发给不同的科室进行处理。然而人工处理这些患者投诉会消耗大量的人力与时间成本。另外处理人员由于主观观念的差异，对于同一个问题有不同看法，导致对患者投诉内容的理解存在偏差，进一步影响处理效率。在实际工作中，一条患者投诉可能会描述多个问题，即有多个分类标签，如果仍然局限于从一个角度理解的患者投诉分类，必然导致患者投诉内容无法被充分理解，进而导致处理患者投诉问题时出现错误。

针对以上问题，本文引进了一套科学的患者投诉分类标准，并根据实际数据调整了该分类标准。参照该标准对收集到的患者投诉语料进行人工标注，解决人员主观性对分类的影响。利用深度学习的方法，构建基于长短期记忆模型(Long Short Term Memory,LSTM)的多个二元分类器，旨在实现高效的患者投诉自动分类，并探究分类器在医院实际应用的情况，为更好地理解患者投诉打下坚实基础。

1 患者投诉相关研究

国内外对患者投诉进行了大量研究。患者投诉对某一个领域的医生与医疗质量的影响是该领域研究的一个重要方向。Catron TF等[6]研究了患者投诉与外科手术事件的关系，得出了患者投诉与外科手术不良事件发生率成正相关的结果；Hiivala N等[7-8]分别使用牙科病人的投诉进行了牙科病人安全事件的预防干预与有安全隐患的牙医诊所的检测。患者投诉管理系统也是该领域研究的重要部分。Levin CM等[9]展示了斯坦福医疗保健相关部门设计的一套病人投诉数据管理系统，通过这套系统可以简化患者的投诉收集和解决流程，进而提高医疗质量；Mirzoev T等[10]收集并分析了相关文献，得出了有效干预是提高患者投诉管理系统的重要举措。更多的研究者则着眼于患者投诉的分类标准研究。Montini T等[11]开发了一个由22个病人投诉代码和5个提供者代码组成的患者投诉分类标准；Reader TW等[4]汇总了来自59项研究的投诉编码分类方法，从中选取729个经过特殊处理的代码，并将这些代码细化后概念化为一份含有3个大类及7个小类的患者投诉分类标准；Harrison R等[12]证明了Reader T W等设计的患者投诉分类同样适用于严重投诉案件的分类。

国内对于患者投诉的研究主要集中于收集患者投诉并进行人工分类与分析。如收集儿科门急诊患者投诉并进行分析，通过对患者投诉内容有针对性地改进，满足了患儿与家长的需求[13]；对174例门诊采血患者投诉的分析[14]；分析278例住院患者的医疗投诉[15]等。国内针对患者投诉自动分类的研究更加稀少。

2 数据与方法

2.1 数据来源

选取某大型三甲医院2012年到2017年的8 000条患者投诉，经过去重合并，去除无意义条目后最终得到实验语料7 872条。

2.2 方法

本文的技术路线如图1所示。

图1 本文技术路线图

2.2.1 人工标注

本研究根据经过调整的Reader TW等[4]人的患者投诉分类标准，由两组经过严格培训的专业人员对样本数据进行人工标注之后，对标记结果进行一致性检验，并对不一致的标记进行审核校正。本文选用Kappa系数[16]检验两组专业人员标注的一致性。kappa系数的计算结果最小值是0，最大值是1，通常用5个区间来代表一致性的不同级别，分别是最低的一致性系数区间为0到0.2、一般的一致性系数区间为0.21到0.4、中等水平的一致性系数区间为0.41到0.6、较高的一致性系数区间为0.61到0.8以及最高的一致性系数区间为0.81到1。

2.2.2 数据预处理

本研究采用了python平台的jieba分词包，并引入自定义词表进行中文分词、去除停用词，通过抓取医学文献摘要、百科语料、医学专业书籍等形成1.95亿的词汇语料库，使用word2vec进行训练，最后得到200维高质量的词向量。将分词的结果与词向量进行映射，得到患者投诉文本的分布式表示，作为LSTM神经网络的矩阵输入。

2.2.3 分类方法

患者投诉分类是文本分类的子问题，其应用的方法与使用的理论基础与文本分类基本相同。由于不需要人工提取特征且解决了循环神经网络长程依赖导致的信息遗忘问题[17]，基于深度学习[18]的LSTM模型在文本分类任务中具有更好的性能[19-21]，研究者逐渐把这种高效的方法应用在文本分类领域。

Shih,CH等[22]使用一种基于连体LSTM方法对IMDB和20-Newsgroups中的文本进行了分类实验；Jiang,MY等[23]则提出了一种基于深信念网络和softmax回归的混合文本分类模型。赵明等[24]使用LSTM模型对饮食健康文本进行了分类，邓三鸿等[25]研究了LSTM模型在中文图书的标签分类中的应用，两者均取得了相较于传统机器学习更好的结果。可见LSTM模型在文本分类领域有着广泛的应用和更好的效果。

故而本研究选择LSTM作为分类模型，并根据LSTM模型构建相应的分类器来对患者投诉语料进行自动分类。本研究采用基于Java语言的Deeplearning4j平台进行所有基于LSTM模型的分类器的构建与训练。

具体分类方法如下：首先基于LSTM模型构建患者投诉分类器(以下简称分类器)，再将患者投诉分为训练数据集与测试数据集，将训练数据集输入构建好的基于LSTM模型的分类器中进行训练，通过测试数据集反映分类器的性能。经过多轮训练，分类器性能趋于稳定并达到一个较高的水平时，就可以使用该分类器进行患者投诉自动分类。

2.2.4 分类结果评估指标

本研究通过准确率(Precision，P)、召回率(Recall，R) 以及F值(F-measure)3类指标对实验测试结果进行评价。三个指标值均在0-1之间，结果越接近1，说明分类模型性能越好。

3 患者投诉分类标准与人工标注

3.1 患者投诉分类标准

为保证分类标准的科学性，采用Reader TW等人基于59项研究的投诉编码分类方法构建的具有3个大类(临床问题、管理问题、关系问题)及7个小类(质量、安全、环境、管理制度、沟通、尊重和患者权利、倾听)的患者投诉分类标准[4]。由于使用的患者投诉语料实际情况不同，对该患者投诉分类标准进行了微调。根据人工标注结果，本研究使用的患者投诉语料中分到原分类标准中“关系”大类下“倾听(listening)”小类的投诉只有96例，并且这些语料表达的内容与“尊重和患者权利”基本一致，故将“倾听”小类合并到“尊重和患者权利”小类中。具体分类标准如表1所示。

表1 患者投诉分类标准

本研究根据分类标准中的6个投诉小类(以下简称类别)对收集到的患者投诉进行自动分类。

3.2 人工标注结果与分析

通过计算两组标注人员的kappa系数比较标注的一致性。经计算，本研究标注的kappa系数如表2所示。

表2 标注人员标注的kappa系数

除临床大类下的“质量”类别以外，其他类别标注的kappa系数都达到较高的一致性，总体标注的一致性也达到较高水平，说明标注结果达到了相当满意的标注一致性。对标注不一致的语料进行审核校正，使所有语料都有确定的唯一的标注结果。患者投诉语料标注的结果如表3所示。

表3 患者投诉语料标注结果

从表3可以看出，患者投诉语料总计7 872条，被分到了42个分类之中。其中单标签患者投诉7 013条，占89.09%；多标签语料859条，占10.91%；具有两个标签的患者投诉794条，占10.09%；具有三个标签的患者投诉60条，占0.76%；具有四个标签的患者投诉5条，占0.06%。

4 实验结果与分析

标注结果中有些语料被标注为多个标签，即一条语料并非只被标记为一个标签，这是由于一条患者投诉提到了分类标准中的多个问题。实验语料中多标签患者投诉只占总体实验数据的10.91%，多标签患者投诉在42个分类中的分布是不均匀的，且每个类的分布数量都非常少，有的类别甚至只有一条语料。若将全部类别考虑进去，模型很难学习到有用的信息，因此构建一个多元分类器来进行多标签患者投诉的分类不可行。故本研究针对每个类别的数据都构建了一个单独的基于LSTM模型的二元分类器来判断语料是否属于该类，即构建了6个二元分类器来对每条语料进行单独判断。由于各个类别样本数量不均衡，会影响学习结果，所以在构建分类器时使用了欠采样[26]的方法进行语料的采集，即降低负类的数量。具体方法是将所有属于该类别的单标签语料作为正向语料，并从剩下5个类别的单标签语料中按比例抽取总数与正类相当的语料作为负向语料，进行训练与测试。

首先，本研究使用7013条单标签患者投诉语料作为实验语料，每个分类器使用各自类别的欠采样语料数据进行训练。表4展示了6个分类器在各自测试集上的测试结果，测试结果使用精确度，召回率和F值作为评价指标。

表4 各类别的分类器性能测试情况

从表4中可以看出，除“质量”和“安全”外，其他4个分类器的F值均超过了90%，各种评价指标基本也均在90%以上，说明本研究构建的分类器具有应用价值与现实意义。

然后使用本研究构建的6个二元分类器，对859条多标签语料进行分类预测。预测结果如表5所示。

表5 多标签语料预测结果

对于多标签语料，有97.20%的语料至少有一个类别被预测了出来，有60.30%的语料所有的类别都被预测了出来。其中32.13%的语料预测结果与标注结果完全一致，只有2.80%的语料没有类别预测出来。

但在实际应用的环境中，单标签与多标签往往混合出现，而且根据标注结果，单标签患者投诉会远多于多标签患者投诉。针对这种情况，我们进行了模拟实验，即从全部数据集中随机抽取20%，总计1 575条的语料作为测试集用以测试分类器在实际情况下的应用情况。测试集数据分布如表6所示。

表6 模拟实验测试集语料分布

使用训练好的分类器对1 575条模拟实验语料进行分类预测实验。实验结果如表7所示。

表7 模拟实验预测结果

对于多分类语料，有97.65%的语料至少有一个类被预测了出来，有92.13%的语料所有的类别都被预测了出来。其中57.78%的语料预测结果与标注结果完全一致，只有2.54%的语料没有类别预测出来，说明分类器有一定的实际应用价值。

但在实际实验当中，我们发现“质量”类别的分类器的效果较差，极大地影响了整体分类器的性能与实验的结果，故我们将“质量”类别的语料与分类器排除在外，进行了第二次实验。实验结果如表8所示。

表8 去除“质量”类别后的预测结果

在去掉“质量”类别之后，分类器的整体性能得到了极大提升，各个指标在各自的水平上均有很大提高，尤其是“完全预测正确”提升了16%，去掉将“质量”类别可以明显提高分类器性能与实验结果。

在实验过程的各个环节中，“质量”类别的表现都不理想。其原因可能为分到“质量”类别的语料相对于其他类别特征不够明显，语料数量也最少。其他类别均有比较明显的特征，例如“安全”类别的语料很可能提到“失误”“出错”等词语，“环境”类别的语料则会提到“吵闹”“脏”等词语，提到“态度差”很有可能是“尊重”类别的语料。而“质量”类别涵盖范围比较广泛，涉及面较多，分类效果自然不及其他类别。