AI驱动与电子健康档案智慧诊疗的功能实现*

2019-12-16丁华东

山西档案 2019年6期

丁然丁华东

（上海大学图书情报档案系上海 200444）

云存储、大数据、VR、区块链、人工智能（Artificial Intelligence，简称AI）等技术的普及，5G商用标准的出现，意味着数据已形成洪流之势，全球进入万物互联的极速时代。人工智能带来了技术革命与时代变革，在许多领域引发生产力变革，医疗健康领域的改革使得电子健康档案与AI的结合成为大势所趋。

1 国内外研究现状

1.1 国外相关研究

电子健康档案（Electronic Health Records，简称EHRs）是个人居民健康管理过程的规范、科学记录，以居民个人健康为核心，贯穿整个生命过程，涵盖各种健康相关因素的信息资源[1]。它是电子病历档案（Electronic Medical Records，简称EMRs）的高阶形式，作为电子病历档案实现互操作性与支持医疗连续性而存在，是实现全球人类健康共同体发展战略的基石。为进一步推动全球范围内的医疗改革，AI与电子健康档案的结合应用成为全球的研究热点。

国际权威刊物《Nature》在2019年1月子刊就发表了9篇关于AI驱动电子健康档案助力实现智慧诊疗的研究成果，部分应用包括：美国数字病理学初创公司PAIge.AI利用AI诊断癌症而获得了美国食品药品管理局（FDA）的“突破性设备”称号；由麻省理工学院（MIT）电子工程与计算机科学（ECCS）实验室多位博士所做的医学影像AI论文被CVPR 2019收录，该团队致力解决医学图像标注数据缺乏的问题；伦敦帝国理工学院和墨尔本大学的研究人员开发了一套人工智能系统Texlab，该系统在分析所导入的健康数据后能够对卵巢癌进行预后（预测疾病可能病程和结局），预测卵巢癌患者的存活率，并给出对患者最有效的治疗建议，该团队研究人员表示，与现有医疗技术相比，该系统预测患者存活率的准确度是传统方法的四倍。

国外相关研究多以社会科学研究的方法，从技术层面探讨解决病患的具体病症的相关问题，用实验数据说明电子健康档案与人工智能相关技术的结合所能够实现诊疗的智慧程度。加拿大约克大学信息检索与知识管理研究实验室的研究团队认为具有抽象医学知识的EMRs的复杂性使得传统的数据分析模型变得低效，因此利用大量的EMRs数据训练一种新的模型来模拟医学实践中的信息分析和决策过程，旨在评估深度学习架构在计算机辅助医学的决策中所起的作用[2]。Rishi V Parikh等人用评估的手法测试在EHRs数据驱动下的自然语言理解技术（NLP）是否能够准确诊断急性心力衰竭患者，并试图提高NLP对急性心力衰竭的住院判定和门诊病例中的效用[3]。Rashidian Sina团队在大量电子健康档案的背景下，尝试以深度学习的方法来模拟编码器预测临床表现所对应的代码，实验表明在充分学习电子健康档案之后，疾病编码的准确性大大提高[4]。

此外，也有相关研究论及在EHRs质与量有保证的前提下，深度学习是能够高精度预测各种疾病的风险。英国斯旺西大学医学院与中国东盟研究院的联合研究旨在通过人工智能的技术手段从公民基础保健的电子健康档案中找出影响力较大的预测因子，并通过判断档案中预测因子的大小来预测痴呆患者是否会入院或继续接受治疗[5]。Awais Ashfaq等人使用瑞典2012年至2016年期间住院的7500多名瑞士充血性心力衰竭患者的实际数据，建立并测试了一个深度学习框架，以预测在患者出院30天之后再次因病入院的风险几率，通过识别高风险患者来减少再入院率并降低护理成本[6]。Marcus Julia L的团队则是利用机器学习改善现有的HIV预测模型，以便更好地识别潜在的HIV携带者[7]。

怎样才能充分利用电子健康档案以发挥其最大的效用价值，并同时提高技术的决策能力也是研究的一大热点。Koleck Theresa A等人利用NLP处理分析EHRs中所记录的症状信息，提出未来的NLP研究应该集中在EHRs文本叙述中的症状和症状记录的调查上，也即提高EHRs的质量[8]。Thompson Jeffrey的团队提出EHRs中包含有大量的非结构化文本，由于NLP算法并不是为EHRs的特征单独设计，可能在自动提取信息时会有障碍，于是他们提出相关词序矢量化（RWOV）来提高NLP识别EHRs数据信息的能力[9]。Subba Bhavaraju撰文讨论了数字医疗保健中的EHRs的现状、问题与发展前景，提出虽然技术在不断进步，但EHRs远未实现其全部潜力。在未来，云计算、远程医疗和可穿戴技术都应该成为帮助医生做出更安全、更便捷的诊疗决策的重要手段[10]。国外相关研究说明了一个事实，电子健康档案与人工智能的结合已经大大提高了医疗领域的生产力，同时帮助提升医疗机构诊断与决策的效率与准确性。

1.2 国内相关研究

笔者以主题=“‘人工智能’或‘AI’或‘深度学习’或‘机器学习’或‘自然语言理解’或‘文本语义’”包含 “‘电子健康档案’或‘电子病历档案’或‘EHR’”在中国知网中国期刊全文数据库进行组配检索，得到73篇相关文献（检索时间为2000年1月1日-2019年9月1日），剔除相关度较低的论文后发现， 59篇均为外文文献，仅有13篇为中文文献。张坤、王文韬、谢阳群通过对以“电子健康”为主题词和关键词的文献进行高频关键词共词分析和聚类分析，得出现阶段电子健康档案的研究热点之一就是信息技术在电子健康领域的应用研究，同时指出智慧医疗的创新发展将是接下来的研究方向之一[11]。江涛、王德斌主要阐述了电子健康档案在应对技术变革时所面临的问题，并从宏观的角度设想构建了一个在健康中国与云智能政策背景下的电子档案体系[12]。张宇、李姣则对国外电子健康档案数据的整合和挖掘应用做了较为系统的综述，着重介绍了基于深度学习的电子健康档案挖掘技术，对人工智能与电子健康档案的应用结合提出了期冀[13]。栗伟为保证对电子病历档案的文本挖掘程度以提高其在临床诊疗中的效率和水平，针对性地对电子病历数据的异构问题提出了相应的技术方案，这对于临床辅助决策的应用需求有着实践性的价值[14]。与以美国、加拿大等为首的先进国家相比，国内的文献研究较少述及电子健康档案与人工智能相关技术的的强关联性，对于人工智能技术如何驱动电子健康档案实现智慧诊疗也尚未有较系统的研究。可见，人工智能与电子健康档案的结合在我国具有较大的学术研究空间。本文借全球首次在《Nature Medicine》上发表有关自然语言处理（NLP）技术基于中文文本型电子病历（EMRs）做临床智能诊断的研究成果为契机，分析人工智能对于驱动电子健康档案实现智慧诊疗的建设性作用，并提出可借鉴参考的驱动方案。

2 AI驱动电子健康档案智慧诊疗的功能表现

2.1 实践案例

2019年2月12日，国际权威医学期刊《自然医学》在线刊登由广州市妇女儿童医疗中心与依图医疗联手利用人工智能技术实现儿科疾病诊断所作的研究成果——《使用人工智能评估和准确诊断儿科疾病》，其核心是利用儿科疾病的文本病例数据训练人工智能，以达成智能诊断的目的。

这具有里程碑意义的研究成果是全球首次在顶级医学杂志发表有关自然语言处理（NLP）技术基于中文文本型电子病历档案做临床智能诊断的研究成果。此次研究的实验样本数据量为近58万儿童患者，136万多份电子病历，其中患者的平均年龄为2.35岁，40.11%是女性，病种覆盖了超过75%的常见儿童疾病，数据结构涉及患者主诉、症状、个人史、体格检查、实验室检验结果、影像学检查结果、用药信息等多方面的数据[15]。这十倍于常量的优质数据集，保障了实验研究的可持续性与可扩展性。

根据该研究所展示的实验过程，AI驱动EHRs实现智慧诊疗分为两个阶段：第一阶段为解构，挖掘电子病历数据中的关键信息点，建立一个高质量、结构化的病种库，即资源构建阶段，并在此病种库基础上做诊断模型，在临床诊疗时提供匹配方案。第二阶段为语义理解，通过训练让机器的模型能够完全理解自然语言，即NLP的实现过程。这个过程是艰难的，首先要自动学习临床病历文本数据中的诊断逻辑，这些数据包括结构化数据与非结构化数据，之后才可能具备像人类一样的病情分析推理能力。

可喜的是，在这次实验中训练出的模型表现出了优异的结果，神经系统的准确性为0.98，呼吸系统的准确性为0.92，全身性疾病的准确性为0.87，最低的消化系统的准确性为0.85。同时，NLP作为AI助力EHRs实现智慧诊疗的一大突破性技术，也发挥出精准的推理能力。在论及为何选择儿科作为实验突破口时，团队代表人倪浩阐述到“儿科是一门哑科，很多小孩子不具备很强的语言表达能力，他们不能详细讲述自己的病情”。事实上，即便医生能够实现深度交互式问答并填写病历，依然存在遗忘甚至经验不足的可能。于是，AI以此为立足点，把所有科目都当作哑科，所建立的病种库是医生知识的集合体，在语音识别助手的帮助下，实现尽可能细致的交互式问答环节，辅助医生得出诊断结果，构建人机协同诊疗方式，以此提升医生的诊断率与用户满意度。

2.2 功能表现

上述研究为实现一个基于人工智能与EHRs的智慧诊疗系统提供了概念证明，通过分析，笔者提炼出三个方面AI驱动EHRs的功能表现。

AI作为人类智慧助推器，辅助医生实现精准诊疗。医学信息已经变得越来越复杂，疾病实体、诊断测试甚至基因范围的扩大，都导致了治疗方式呈现指数级增长的形式，随后临床决策也变得越发复杂。人工智能通过深度挖掘EHRs中海量的临床信息电子数据点，借助机器视觉、自动识别图像的能力,快速、准确地做出图像解释，并模仿临床医生的诊疗路径，独立做出决策指导，如帮助诊断并选择治疗方案，风险预测与疾病分类，上述实验中训练出的模型所表现出的优异结果，即说明了AI提供诊疗的精准度绝不亚于临床医生，甚至在某些疑难杂症的诊断中，AI所提供的诊疗建议优于临床医生，因为AI提供了更多的可能性。当临床医生和人工智能协同工作时，会产生协同效应，产生比任何一种诊疗更好的效果，增强实时临床决策支持，从而实现越发精确的医疗诊断。

AI作为人类医疗团队的替代方案，补充国家医疗资源。我国医疗领域的痛点问题之一是医疗资源不足，且地域分布不均衡，但由于医生培养周期长，培养成本高，短期之内人类医生团队无法缓解急剧增长的医疗需求。广州市妇女儿童医疗中心是中国医疗系统的一个缩影，“看病难”便是我国有限的医疗资源与众多的患者之间的矛盾现状。显然，人工智能无法完全替代人类医疗团队，但在执行特定医疗任务时表现出极大的一致性、速度与再生产性。它能自动化处理那些在理论上并不复杂但极其费时费力的任务，高速运转的算法使得人力资本得到质的飞跃[16]。于是，电子病历档案与人工智能互为驱动实现了远程医疗交互，使得就医在全国各地都变得触手可及，补充国家诊疗资源，助力实现“健康中国”战略。

制定个性化健康手册，提升人类健康自主认知。人工智能改变了以往的查档体验，改善电子健康档案的可获取性，提升电子健康信息反馈的即时性，居民成为直接受益人。根据个人授权，居民在就诊时的主诉、症状、个人史、体格检查、实验室检验结果、影像学检查结果、用药信息等多方面的数据将自动更新到医院病种库以丰富诊断模型，同时生成可视化的健康评估报告和诊断报告，为居民提供健康管理、疾病预防和医疗决策等方面的指导意见[17]。对居民来说，通过让他们处理自己的数据来预防疾病、保持健康，不仅减轻了医患压力，节约了医疗成本，更增强了服务可及性与用户满意度，提升了居民的健康认知[18]。因此，EHRs的智能管理为个人或群体提供更为具体化的健康指导、健康咨询，更有助于建立全国范围内的健康预防机制。

3 AI驱动电子健康档案智慧诊疗的实现障碍

在2017年5月Alpha Go击败了世界排名第一的围棋冠军柯洁，围棋界公认Alpha Go的棋力远胜目前人类职业围棋的顶尖水平,于是便有传言“人类离人工智能统治世界又进了一步”。但事实上，当今这个时代还属于“弱人工智能时代”，虽然人工智能在文本语义理解上实现了单点突破，但显然并未具备超越人类的能力，AI的应用发展还面临着许多困境，亟待我们找到突破的出口。

3.1 电子健康档案质与量的鸿沟

对于人工智能而言，算法、算力、数据是其核心三要素，而核心中的核心乃是数据。任何算法都需经过数据的洗礼，而数据的质量、完备程度、准确程度等直接决定了AI在实战中的表现，所以无论中美，扼住了数据的来源便是扼住了人工智能发展的咽喉[19]。不仅初始算法的训练需要电子健康档案，后期算法的训练、验证和改进都需要持续的电子健康档案供应。但由于现阶段的电子健康档案来源复杂，内容广泛，标准不一，性质特殊，脱敏困难，尤其元数据稀缺，无法提供足够的数据量和优质的数据源。陆泉等人就以网络调查的方式调查了16 个医学网站中图像库、描述文本、大众评论、标签或主题词、元数据和知识地图6 种医学图像组织方式，结果显示不同类型网站使用的组织方式类型不均衡，同一类型的不同网站图像信息资源组织方式的使用数量也不均衡[20]，这直接阻碍了不同系统之间的资源共享与数据关联，影响AI的执行效率。

3.2 电子健康档案利用与公民隐私泄露的冲突

电子健康档案的利用侵犯公民隐私权主要源于两方面——数据源的非法获取与数据的泄露危险。一方面，人工智能在进行大规模的数据收集过程中同样展示出了大规模的监视潜力，系统借助语音识别、自然语义理解、视觉识别、机器学习等技术在移动终端上自动获取用户健康信息，这是计算机化而导致的隐私丧失。今年8月，苹果公司被曝，将部分用户与Siri的对话录音发送给外包商进行人工分析，其中就涉及医疗疾病数据等敏感信息，美国加州的苹果用户已提起集体诉讼，但在我国偷听常被定义为道德问题，很难立案，换句话说就是，明知权利被侵犯，用户也可能无处申冤。[21]另一方面，为了使算法在更大范围具有可行性，电子健康档案不仅需要在不同地域、不同机构之间展开共享，甚至可能跨国共享。一旦电子健康档案在大范围传播，使用不当、不恰当的披露以及网络安全措施的局限性都会导致患者隐私泄露的风险加剧，而现有的安全措施只是在降低风险转化为灾难的可能性。

3.3 人工智能的普及与人类医生使命感的碰撞

人工智能的应用可能会导致医生责任感的散失。这在诉讼案件中的责任判定能够清楚体现：当一名医生在借助人工智能做出错误的诊断而引发灾难性的后果时，过失的责任应该由谁承担[22]？不难想象，人工智能在这个社会容纳度极强的时代出现，不管是医生或是患者对人工智能的信赖度前所未有地高涨，当人类医生与人工智能的诊断决策相悖时，担心医患问题发生在自己身上的医生往往是出于不自信亦或是逃避责任的动机而选择妥协于人工智能，当问题出现时，人工智能自然而然成为“背锅侠”。

4 AI驱动电子健康档案智慧诊疗的推进策略

AI驱动电子健康档案实现智慧诊疗是全球致力达成的一个战略目标，实践成果十分丰富的以美国、加拿大为首的国家，给我国实现AI赋能电子健康档案提供许多参考方向。笔者从顶层设计、技术保障与伦理规范三方面展开思考，提出AI驱动电子健康档案智慧诊疗的推进策略。

4.1 顶层设计

政策引导、标准规范与法规保障的根本性作用。早在2004年美国布什政府就提出建立全国电子健康档案的十年计划，2009年奥巴马政府再次提出医疗改革计划，斥资鼓励电子健康档案的有效利用[23]。同时，美联邦政府分阶段有计划落实战略目标，重视相关标准的建设，在2007年颁布全球第一个EHR系统的国家标准《电子健康档案系统功能》。我国国家层面的电子健康档案概念的普及是在2016年10月中共中央、国务院发布《“健康中国2030”规划纲要》、同年12月国务院发布《“十三五”卫生与健康规划》之后。相较美国，我国在政策文件、法规制度、标准规范等顶层设计上落后许多。因此，目前我国要解决的问题包括：首先，制定有针对性的战略规划与布局，引导人工智能快速驱动电子健康档案；其次，建设相关标准规范，统一电子健康档案数据，解决电子健康档案应用中数据异构等棘手问题；再者，重视配套法规制度的跟进，保护公民健康数据的安全，防止公民隐私受到侵犯，真正做到有据可循，有法可依，防范于未然。

人工智能教育低龄化，提升社会认知水平。我国可借鉴日本政府的做法，在大学推动构建AI教育体制，将AI教育纳入高等教育，打破文理科界限，开设“AI与档案”、“AI与健康医学”等课程。我国的教育体制重点在于让社会意识到：没有“人工”就不“智能”， AI只是让人类生活变得更便捷的使用工具，而非“神之左手”，并无超越人类的创造力。

4.2 技术支撑

云存储支持数据保障，云计算提供算力支持。云计算带来了近似无限的存储能力和运算能力，与其相比 PC 机就仅是允许用户使用云的轻量级终端[24]。传统模式下的电子健康档案管理系统一般采用集中式存储，但物联网的大数据形式使得我们不得不考虑如何才能更有效地集合不同来源、不同系统、不同标准的数据，以及如何更有效地利用和拓展存储空间。首先，分布式“云”存储满足了电子健康档案在数据爆发式增长背景下的访问与处理需求。云环境下的电子健康档案以虚拟存储的模式打破信息壁垒，突破单个系统的边界，不同地域、不同卫生医疗机构、不同数据平台均能实现医疗档案无缝对接，完成数据的整合与互通共享。其次，在面对海量（非）结构化档案数据时，人工智能具有深度学习能力，对选定数据集进行标记并建立关系模型，做出类别判断，实现智能分类。再借助NLP技术学习人类诊断逻辑，获取推理能力，以辅助临床诊疗。云计算在规模、可扩展性、成本、集中式数据中心方面的优势，可以帮助实现越发智慧的数据感知和汇总，越发完善的数据模型和问题求解，越发自主的平台服务支撑和数据共享、越发精确周密的决策制定与执行[25]。

物联网助力实现电子健康档案泛在化。“物联”即物品与互联网的连接，它是互联网的应用拓展，是指通过传感技术实现物品间的信息交互。首先，物联网的实践方向是智能化识别系统，提供个性化的在线监测、定位追踪等功能，聚合万物。电子健康档案数据量庞大，借助物联网技术对每个数据属性进行精准标识，在真正意义上实现数据资源化。其次，物联网技术将通过各类传感器的互联互通，获取万物信息状态，使万物变成“智慧尘埃”。人类最熟悉的传感设备之一——智能手表已经实现了人体健康的自动监测，并根据用户权限设定，可选择健康数据的传输方向。物联网再借助云计算、大数据、移动终端等技术的支持，将监测报告与诊疗意见推送给用户，提供定制化服务。以用户体验为核心的应用创新是物联网发展的灵魂，而公众对技术红利最直观的感知来自用户体验，改善和丰富“智慧体验”，从而提升公众对人工智能与电子健康档案的价值认知[26]。

区块链技术为电子健康档案安全保驾护航。云计算、边缘计算、物联网的广泛应用使得电子健康档案在安全性上存在很大的缺陷，隐私泄露直接诱因便是安全漏洞。电子健康档案在云平台互联共通、大数据分析与预测等行为难免会造成隐私泄露的风险，而区块链的高冗余存储、去中心化、高安全性和隐私保护等特点，让数据更加安全可靠，能够在一定程度上保护电子健康档案的真实性与保密性[27]。首先，卫生系统可以建立基于区块链技术的全国电子健康档案平台，区块链系统以分布式数据库的形式存储数据，只有拥有授权的用户才能得到访问权限，医疗机构通过公钥进入程序完成数据的录入与更新，患者通过私钥访问个人健康数据，并实现数据实时上传或下载。其次，区块链技术的加持能防止电子健康档案被非法篡改，加密系统能够保障云存储中的各项档案数据真实可靠并可追溯，任何操作痕迹都极难被销毁，从而为电子健康档案的整体安全提供了最佳的保护方案。

4.3 伦理规范

关于人工智能与人类医生的责任碰撞，我们应该接受的做法是：人工智能医学系统扮演着同医学教材相似的角色，人工智能医学系统做出辅助决策，医生有责任理解辅助决策背后的逻辑过程，并以诊疗主体人员的身份用经验判断是否接受系统的建议。显然，人工智能影响的直接对象应该是医生，而非患者。那么我们可以得出的结论是，无论人工智能的决策精确与否，医生都有不可推卸的责任，尤其是如果人工智能的决策比人类医生的判断更加可靠与精确，而医生不采用人工智能的建议就可能承担相应的法律责任。

人工智能的成功并不意味着人类种族的终结。且不说现阶段人工智能还处于“弱”智能时代，即便在将来获得很大的进步，我们对人工智能的定位依然是“让人类生活更美好”而非“取代人类”。机器没有伦理，但人类有道德，我们不能赋予人工智能以情感，但我们的研究应该同社会的道德伦理相吻合，从而规范人工智能的研究动机与发展方向。

5 结语

与医疗健康体系较为进步的西方国家相比，我国浩大的人口数量与有限的医疗资源所形成的严峻形势亟需我们加快推动医疗体系的创新改革，这个改革的发动机是人工智能，而人工智能的燃料就是电子健康档案。电子健康档案的建设与利用已经成为“健康中国”战略中的一项基础性工作，但距离真正实现人工智能与电子健康档案的融合应用与系统普及还存在较大的困境和难点。明确政策引导、技术保障与规范护航的推进策略，是本研究基于我国较为薄弱的理论与实践现状所提出的实施方案，旨在以一个学术启点的角色来引发国内学术界与实践部门对人工智能与电子健康档案融合应用的重视并加快人工智能驱动电子健康档案系统普及的落地。人工智能驱动电子健康档案所实现的功能不仅包括改善居民在社会生活过程中的就诊体验，更能使居民享受机器的智慧服务。万物有灵，未来的人工智能与电子健康档案融合应用的发展导向会更加人性化，智慧诊疗也不再局限于辅助精准诊疗、补充国家资源与提升人类健康认知，而将定位于智能制造，致力于改善人类生活，比如定制面向残疾患者或者行走能力较弱的老年人的行走辅助工具。面对未来的这项赛跑，只要全国上下保有积极的态度、通力合作一定能够后来居上，收获优异的成绩。