基于疾病诊断相关分组的医学知识图谱库构建方法*

2020-11-25刘新奎杨林朋昝红英牛承志

医学信息学杂志 2020年9期

刘新奎杨林朋昝红英牛承志

(郑州大学第一附属医院郑州 450052) (郑州大学郑州450000) (郑州大学第一附属医院郑州 450052)

1 引言

1.1 研究背景

知识图谱最早于2012年5月17日被Google公司正式提出[1]，随着人工智能技术发展和应用，现已被广泛应用于智能搜索、个性化推荐等领域[2]。在国外已有较多重要的知识图谱研究成果，如Google Knowledge Graph[3]、DBpedia[4]和Freebase[5]等。当前人工智能已广泛应用于医疗健康领域，如在医学影像识别方面已达到顶级医生水平，甚至在某些疾病诊断过程中智能决策支持系统对疾病的诊断正确率超过一般医生[6],人工智能应用于医学领域将会推动传统医学向智能医学转型，为传统医学带来巨大变革，逐渐走向智能化发展[7]。与此同时，医学人工智能发展可以更快、更准确地解决临床诊断问题，将人工智能更多地应用到医学领域是大势所趋[8]。

1.2 相关概念

随着计算机技术发展，医学知识图谱(Medical Knowledge Graphs，MKG)应用越来越广泛，能够直观地通过图谱形式表达出每个节点之间的联系。疾病诊断相关分组(Diagnosis-related Group, DRG)是一种根据患者年龄、疾病诊断、并发症、合并症及治疗方式等因素将患者分成若干DRG组进行管理的体系[9]。根据DRG分组器的分组原理，通过知识图谱形式将影响分组的相关信息以知识图形式展现出来，即以直观形式来展示DRG分组方式，对于DRG推广、应用具有重要意义。

2 DRG-MKG存在的问题

目前大多数医学知识图谱主要是针对某个科室、某类疾病或药物进行构建，尚未有学者针对DRG建立医疗知识图谱库。建立较为客观精确的DRG医学知识图谱库需要不断融合不同医疗知识库，将不断发现的新的医学知识纳入到DRG医学知识图谱库中。基于DRG的医疗知识图谱构建是一个不断更新的过程。我国卫生发展水平以及费用结构与西方国家存在差异，应研究适合我国国情的病例组合方案，一些学者探讨DRG在中国的引进和应用，为建立我国病例组合积累资料和经验[10]。由于各省市病种结构略有不同， DRG在国内的发展过程中出现各种版本，如北京版、上海版，由此也出现很多问题[11]，MKG可以辅助进行DRG分组器优化，从而进行反向的推进。

3 DRG-MKG构建方法

3.1 概述

本文在以往研究基础上分析总结现有知识表示模型特点，基于语义网络表示方法设计医学知识表示模型，为医学知识表达与存储提供更加贴切的模型并构建DRG-MKG库。

3.2 分析整理文本信息及数据

为保证数据真实有效，采用随机抽样方式，利用OntoManager、OOPS以及Core等文本评估工具对收集到的病历首页进行检测，主要解决数据可能存在的逻辑、编码标准化等问题。

3.3 标注语料数据

语料库是医学文本挖掘的重要资源，是实现语义标引、机器翻译、知识关联、数据挖掘、智能检索等功能的基础支撑。语料标注过程分为预标注和正式标注。预标注阶段主要完成对标注规范的修订，首先在分析现有医学语料库标注规范基础上形成标注规范初稿，明确标注实体类型范畴及边界等问题，随后采取多轮迭代模式进行规范修订和标注工作，主要利用迁移学习这一机器学习方法将通用领域的知识迁移到医学领域的命名实体识别。

3.4 DRG-MKG描述体系

利用专家知识，融合DRG，对现有知识图谱改进。现有医学知识图谱完备性不足，其体系某些部分有所缺失。疾病诊断系统在做判断时，很容易因为医学知识图谱的不完备性发生诊断或判断不明的情况，因此要融合DRGs的分组内容，对MKG描述体系进行细化。

3.5 实体识别和关系抽取

采用自下向上的构建方法，从非结构化或半结构化的医学文本中抽取出医学实体和医学关系。针对医疗领域实体，拟用深度学习架构中的NN-CRF架构和滑动窗口分类思想，通过神经网络的学习来完成对实体的抽取；针对医疗领域关系，拟用Lattice-LSTM方法，对医学文本中的关系进行提取。

3.6 DRG-MKG库

现今医学知识图谱库之间的融合技术有了一定发展，但仍需要大量人工干预，知识融合算法效率较低，采用众包方式来解决DRG知识图谱库构建中所遇到的知识融合难题。从非结构化或半结构化的医学文本中抽取出医学实体和医学关系。针对医疗领域实体，拟用深度学习架构中的NN-CRF架构和滑动窗口分类思想，通过神经网络的学习来完成对实体的抽取；针对医疗领域关系，拟用Lattice-LSTM方法，对医学文本中的关系进行提取，以此构建DRG-MKG库，见图1。

图1 DRG-MKG库构建框架

4 DRG-MKG应用展望

4.1 健康宣教

MKG为医疗信息系统中海量、异构、动态的医疗大数据表达、组织、管理及利用提供一种更为有效的方式，使系统智能化水平更高，更接近于人类认知思维。DRG-MKG库能够将较为抽象的信息以可视化方式呈现，提高用户获取知识的效率和完整性。DRG-MKG通过生动形象的图形信息帮助患者理解疾病相关注意事项。患者对健康宣教知识的掌握及遵守情况将对其康复结果及预防产生较大影响。此外由于患者文化水平参差不齐，往往难以在短时间内接受并掌握大量自护康复信息。通过知识图谱丰富图形及色彩效果吸引患者注意力，使患者在宣教过程中保持关注。利用机器学习算法以及医学数据特点对模型进行训练，然后识别实体。常用方法包括支持向量机、人工神经网络、隐马尔可夫模型、条件随机场等。

4.2 辅助诊断决策系统

使用知识图谱技术能够将结构化知识从大量文本和图像中抽取出来，知识图谱、大数据技术以及深度学习技术3者的结合正在成为推动人工智能发展的核心驱动力。在医疗领域中知识图谱技术具有较好应用前景，针对DRG-MKG库的研究将有助于解决优质医疗资源供给不足和医疗服务需求持续增加的矛盾。随着知识图谱技术不断发展，DRG-MKG的医疗辅助诊断成为可能。这是一种利用抽象建模、机器学习等现代信息化手段进行诊断的辅助系统，能够自动化解析相关文本、图像等知识，提取相应特征，之后使用机器学习、深度学习等技术完成更高层次的特征抽象和多重非线性复杂计算，最终自动输出相应诊断结果。DRG-MKG的医疗辅助诊断能够辅助医生诊断病情，显著提高诊断效率和准确度。特别是当医生接触到疑难杂症时，可能需要花费较多时间查找相关案例以及知识库。而借助智能辅助诊断，可利用已学习到的大量知识进行自动化解析与处理，极大提高医生工作效率，降低不必要的医疗资源消耗。

4.3 优化DRG分组器

充分利用基于DRG的知识图谱库强大的数据处理能力，结合国内外现有DRG分组系统，对此次研究样本医院住院病案首页信息进行DRG分析，记录不同DRG系统分组情况，比较不同DRG分组系统分组效果，归纳不同DRG系统分组特点，追溯形成不同分组效果的影响因素，由此提出改善和优化现有DRG分组系统方案，形成本土化DRG分组系统。利用优化分组系统进行模拟测算，适时调整疾病分组模型和权重评价体系。

5 结语

实现DRG-MKG知识库的核心是结合病案首页、临床知识等多组学数据，利用基于医学数据源和数学模型的机器学习、基于医学词典及规则的自然语言处理以及深度学习、统计分析等方法，综合考虑病种诊疗数量、平均住院日、平均费用等资料的情况下，利用OntoManager、OOPS以及Core等文本评估工具对收集到的病案首页进行检测，解决数据可能存在的逻辑、编码标准化等问题，筛选病种，确定具有研究价值的DRG病种。研发面向疾病风险预测、早期诊断的临床决策支持系统，为DRG-MKG库转化提供有效途径。通过构建并完善DRG-MKG库，依托大型医院验证推广，不仅可以将与DRG相关的医学知识抽取出来，融合形成结构化知识，还能在此基础上对健康宣教、辅助诊疗进行研究和应用，推动智能化发展。另外可以促进患者对疾病的客观认知，尽早配合治疗，降低医疗费用，节约医疗资源。