APP下载

可计算的临床证据综合:方法与进展

2022-07-13白永梅

首都医科大学学报 2022年4期
关键词:临床试验结构化图谱

白永梅 杜 建

(1.北京大学医学部医学技术研究院,北京 100191;2.北京大学健康医疗大数据国家研究院,北京 100191;3.北京大学医学部公共卫生学院,北京 100191)

证据综合(evidence synthesis)是指将多个来源和学科的信息和知识汇集在一起,为辩论和决策提供信息的过程。对现有证据进行准确、简洁和无偏倚的综合是研究界可以为决策者提供的最有价值的贡献之一[1]。自1980年以来,证据综合已发展成为疾病预防、诊断和治疗以及其他健康议题影响决策的基础。证据综合还有助于解决教育、经济、环境、刑事司法、全球发展等最紧迫的全球挑战。例如,全球的药品监管机构和医疗保险公司不依赖单一研究,而是综合所有相关研究来评估安全性和有效性,并决定是否批准药物上市或支付药物费用。证据综合是“从证据到实践”、“从科学到政策”的桥梁[2]。在医学领域,证据综合的结果主要是系统评价和Meta分析。根据统计,正式发表的系统评价数量已从2011年的约6 000篇增加到2021年的45 000多篇[2]。全球平均每天要进行约75项临床试验和11项系统综述[3],证据综合越来越困难,一项系统评价平均需要5个人花费67周时间才能完成[4],由此导致证据综合存在严重的滞后性,无法充分且及时发挥对决策的价值。如何跟上海量医学证据的发展,并将其转化为临床实践是一个迫切需要解决的科学问题[5]。

2020年,医学信息学领域的学者提出了“可计算的证据综合”(computable evidence synthesis)的概念,即直接利用临床试验注册平台的结构化数据促进医学证据合成[6-7]。有助于系统综述从耗时的“试验结果出版物筛选模式”转为主动积极的“临床试验监测模式”,从“证据积累模式”转变为“证据优先级排序”的模式[8]。相对书目数据库而言,临床试验注册平台的试验结果尤其是阴性结果未被充分利用。本文受以上观点启发,述评目前研究进展,提出可计算的证据综合的基本框架和实现路径,为实现快速证据综合提供可行性路径和研究案例。

1 可计算的证据综合实现框架

实现可计算的临床证据综合,需要抽取、映射和整合三个过程。首先是抽取,即结构化,从半结构化数据平台(如Clinicaltrials.gov的XML文件、Cochrane系统综述结果)和非结构化自然语言文本(如PubMed)中抽取“患者-干预-对照-结局”(population-interventions-comparisons-outcomes,PICO)要素;以美国Clinicaltrials.gov、中国临床试验注册平台等为基础,利用其相对结构化的数据,自动生成PICO字段,对于注册平台上未报告结果的试验,通过计算机软件工具获取书目数据库(如PubMed)或网络(如权威会议报道)报告结果。

其次是映射,即标准化,利用医学本体和术语集,将PICO要素的不同语言表达进行统一编码[9],将自然语言映射为标准化术语体系中的概念;常用的术语体系如统一医学语言系统(the Unified Medical Language System, UMLS)[10],常用的映射工具如基于文本相似度的术语映射工具通用数据模型(the Observational Medical Outcomes Partnership-Common Data Model, OMOP-CDM)[11],这些工具可以在很大程度上帮助实现“多源异构”术语的自动映射,实现统一表达,为证据整合奠定基础。

第三是将不同来源的实体和数据通过“以PICO为框架的知识图谱”进行整合、存储。将以上结果与目前现有的系统综述(如Cochrane系统评价数据库)结论进行对比,可判断当前证据是进一步确认了还是完全改变了目前最新的系统综述或Meta分析结论,从而能减少重复开展系统综述带来的时间和人力浪费。

2 研究现状

目前针对不同等级的临床证据,如系统综述、随机对照试验(randomized controlled trial,RCT)结果、注册临床试验等均有计算机科学和医学的交叉研究团队开展了证据结构化和标准化的工作,代表性进展主要包括以下两个方面。

2.1 系统综述结构化

Cochrane系统评价数据库(Cochrane Database of Systematic Reviews, CDSR)是世界上最大的单一系统评价数据库。为实现系统综述结论的结构化存储,Cochrane组织在2014年启动了链接数据(Cochrane linked data)项目,将系统综述中涉及的PICO概念进行结构化和标准化。以新型冠状病毒肺炎(COVID-19,以下简称新冠肺炎)疫情为例,Cochrane组织和科技公司Data Language合作构建了一个全新的数据架构(a radical new data architecture),以知识图谱(knowledge graph)技术为核心,改进Cochrane以往用传统的非结构化数据(主要是自然语言文本)描述医学证据的方式。

Cochrane系统综述的传统方式耗时耗力,需要领域专家参与,最终的产出是复杂半结构化文档。在新的方案中,“标准化”通过PICO框架中的疾病、干预等实体使用标准化词表来表示。常用的实体和标准化词表对应情况详见表1。以上在PICO finder系统中可以实现查询,其实体所采用的标准化词表也即OMOP-CDM中的叙词表。但Cochrane当前的研究仅进行了实体类别标注,并未对干预和结局之间的关系进行描述(图1)。2020年,有研究者[12]聚焦系统综述的结果,从中提取相关疾病、风险因素、风险结果和其他糖尿病实体以及比值比(odds ratio, OR)或风险比(risk ratio, RR)等效应指标和效应值,基于循证医学的框架构建糖尿病并发症的知识图谱,将实体之间的风险关系通过知识图谱进行可视化,实现快速证据综合。

表1 PICO框架中的实体与其对应的标准化词表 Tab.1 Standardized vocabulary for entities in the PICO framework

图1 Cochrane PICO FinderFig.1 Cochrane PICO Finder(https://data.cochrane.org/pico-finder/)PICO:population-interventions-comparisons-outcomes.

2.2 随机对照试验结果的结构化

2.2.1 Trialstreamer:对RCT结果的结构化

RCT结果结构化的代表性工作是Trialstreamer人工智能系统。系统基于PubMed和世界卫生组织(World Health Organization,WHO)国际临床试验注册平台(International Clinical Trials Registry Platform, ICTRP),使用RobotReviewer机器学习系统自动查找RCT研究,并从中提取关键信息。具体包括(图2):

图2 Trialstreamer数据结构Fig.2 Data structure of Trialstreamer

(1)PICO概念:基于规则进行提取,映射为UMLS超级叙词表中的概念。使用EBMNLP(evidence-based medicine natural language processing)语料库对PubMed当中的RCT研究摘要进行PICO概念的识别[13]。通过Metamap Lite提取描述PICO元素的MeSH术语,基于UMLS Metathesaurus通过算法生成的庞大医学术语同义词词典,使用MeSH词汇表中概念的唯一标识符相匹配来实现标准化。字段包括:人口学特征(population)、干预措施(interventions)、结局(outcomes)、人口学特征MeSH(population_mesh)、干预措施MeSH(interventions_mesh)、结局MeSH(outcomes_mesh);以上结果包含了结构化和标准化两个过程,其中标准化是通过向MeSH术语体系映射实现的。

(2)偏倚风险评估(prob_low_rob):通过训练Cochrane图书馆中60%带有Cochrane偏倚风险工具手动评估的RCT摘要,以实现从摘要中自动评估偏倚风险的目的。

(3)样本量(num_randomized):使用一系列启发式、正则表达式和自然语言处理(natural language processing,NLP)技术将摘要中的样本量进行提取,并使用多层感知器模型来估计每个整数代表研究样本大小的概率。

(4)结论句(punchline_text)[14]:包括作者结论和统计效应量的句子。

(5)其他元数据项:PMID、标题(ti)、摘要(ab)、年份(year)、作者(authors)、期刊(journal)、doi等。

2.2.2 注册临床试验结构化

目前,针对注册临床试验开展可计算的证据综合有以下代表性工作:(1)2012年构建的临床试验知识图谱(Clinical Trials Knowledge Graph, CTKG),该图谱是根据来自ClinicalTrials.gov数据库的临床试验数据构建的知识图谱。包括代表临床试验(如研究、药物、病情)中医疗实体的节点,以及代表这些实体(如研究中使用的药物)之间关系的边,它包括1 496 684个节点(18种节点类型)和21种关系类型,共3 667 750个三元组。提供了3本关于如何使用知识图嵌入来探索和分析CTKG的手册[15]。(2)新冠肺炎临床试验链接图:利用自然语言处理工具,从符合纳入和排除标准的开放文本和来自ClinicalTrials.gov的结构化信息中提取临床试验信息,并将其导入支持查询和可视化的图形数据库,便于检索临床试验[16]。(3)2022年构建的CTKG,该图谱包括表示临床试验(例如,药物和症状)等医疗实体的节点,以及表示这些实体(例如,研究中使用的药物)之间关系的边缘。同时嵌入分析CTKG在临床应用中的潜在效果,例如药物再利用和相似性搜索等[17]。

以上研究均把PICO概念进行了结构化,但目前的研究均没有提取I/C和O之间的效应指标和效应值。因此,笔者此前的研究在国内外学者的基础上构建了基于“医学实体”和“统计量”的临床证据知识图谱,基于ClinicalTrials.gov平台XML数据、Trilastreamer工具提取出版物中临床试验实体、包括统计量的结论句和风险偏倚评分(代表研究质量)等字段[18],通过NLP进一步规范PICO实体和统计学指标,并与标准化术语体系(MeSH、ICD、MedDRA等)进行映射,构建I/C和O之间的效应关系,筛选有临床意义的试验,辅助临床决策[19]。通过分类来确定I/C和O之间关系的启发[20],笔者将干预和结局之间的效应根据抽取出的P值分为三类来定义其临床意义:①有显著差异(改善、增加、降低),P<0.05;②无显著性差异,P>0.05;③未出现。ClinicalTrials.gov在使用元数据方面尚存在着一些障碍,其主要原因是未进行术语标准化。如患者疾病情况的描述词分布包括MeSH (62%),MedDRA (46%)和SNOMED-CT (45%)[21]。

结合上述工具和研究,笔者通过导出ClinicalTrials.gov中有关COVID-19临床试验的eXtensible Markup Language(XML)文件,基于PICO框架对字段进行分类、标准化映射、图数据库存储等信息处理过程。笔者的映射工具涉及MTI、MetaMap和Usagi,并在Neo4j、GraphDB中建立了“实体-属性-值”结构的图数据库[22- 23],较Clinicaltrials.gov平台增加了新的基于多字段和内容的查询条件,通过Cypher语言对特定字段进行查询、数据导出,为可计算奠定基础。在笔者建立的本地数据库中通过Cypher语言查询“MATCH (n{nctid:’NCT04491240’}) RETURN n”返回结果如图3所示,可视化展示的每个节点名称为“实体”,“node labels”为节点的属性,每个节点中包含了相应的“数据”且可以供研究者导出使用。该研究被收录在ExtractionandEvaluationofKnowledgeEntitiesfromScientificDocuments(EEKE2021)论文集当中。通过Cypher语言在Neo4j构建的图形数据库中查询和批量导出信息[24],可以帮助研究人员批量获取最新数据,并为实时合成研究证据奠定基础。与书目数据库中的出版物相比,这些数据包括阴性和阳性结果,更加全面客观,可以补充出版物中的灰色数据。实体对齐使用到Usagi工具(https://github.com/OHDSI/Usagi),直接映射到OHDSI的术语表[25]。

通过上述方法构建了如图3所示的临床试验信息存储图数据库的内容,大规模分析临床试验可以为自动化Meta分析提供信息学策略、绘制证据图谱、将有证据支持的暴露-结局绘制为网络知识图谱。可以实现的临床应用包括:提取临床试验患者纳入标准中“有一线药物失败”的患者使用的二线药物信息;二线药物的临床试验设计,可以参考相关一线药物的研究设计要素等。

图3 图数据库存储医学知识“实体-属性-值”案例展示Fig.3 Case presentation of Graph database stored medical knowledge “entity-attribute-value”

3 结论

2021年Nature发表的评论呼吁动态更新的证据综合,通过NLP、机器学习、众包等技术来规范开放数据管理,如提高数字资源共享可发现(Findable)、可访问(Accessible)、可互操作(Interoperable)和可重用(Reusable)的FAIR原则,帮助推动数据共享的可查找、可访问、可互操作性,以此建立高质量的证据合成方法和指南[2, 26]。推动可计算的生物医学知识(Mobilizing Computable Biomedical Knowledge, MCBK)第三届年度公开会议总结:动员可计算的生物医学知识-加速第二次知识革命[27]。

本研究所纳入的研究均通过结构化医疗数据来实现医学知识的可计算,其中“标准化映射”实体是规范字段名称通用的手段,不同的标准化方法侧重的内容不同、编码方式不同,但都以利于医学数据字段融合为目的。如血管紧张素转换酶抑制剂和血管紧张素受体阻滞剂被认为会影响新冠肺炎的易感性,但缺乏相关临床试验,通过证据融合可以更好地为临床医学提供证据[28]。

当前大部分研究停留在设想阶段,鲜少有实践案例,且存储方式单一,不利于查询和数据提取。如ClinicalTrials作为结构化数据库,其查询字段有很大的局限。将本文结合图数据库存储为“实体-属性-值”的格式,并应用现代化查询技术,可以通过图数据库的存储形式来实现不同研究数据的可视化、查询、数据提取等。实现手段如图4所示:①从结构化数据库中提取数据;②医学实体标准化:通过MTI、Usagi、MetaMap等工具和平台,对医学实体进行编码和对齐;③通过知识图谱构建平台和工具,将“实体-属性-值”进行存储;④通过SPARQL、Cypher、Python等编程语言对数据进行查询、导出。该路径综合了前人研究的基础,且在数据存储、共享、可视化方面进行了一定的创新。

图4 可计算的临床证据实现框架Fig.4 Implementation framework for calculable clinical evidence

利益冲突所有作者均声明不存在利益冲突。

作者贡献声明白永梅:论文撰写、绘图;杜建:研究设计和论文指导。

猜你喜欢

临床试验结构化图谱
基于图对比注意力网络的知识图谱补全
美国特战司令部参与抗衰药临床试验 合成一百余种新型NAD+增强剂
品管圈在持续改进医疗器械临床试验全周期质量控制中的应用
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
绘一张成长图谱
参加临床试验,也要“顺道”
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
做事如做药