APP下载

FAIR准则与生物医学数据标准应用服务*

2020-03-13杨啸林潘虹洁王志刚何勇群

中国医学伦理学 2020年2期
关键词:生物医学数据管理本体

杨啸林,杨 晟,潘虹洁,王 哲,王志刚,何勇群

(1 中国医学科学院基础医学研究所,北京 100005,yangxl@pumc.edu.cn;2 密歇根大学医学院, 密歇根州 48109)

1 数据驱动的科学研究给数据管理带来的挑战

近二十年来,数据的积累已经成为科学研究领域一个重要特征。数据驱动的科学发现广泛——被称为科学研究的第四范式[1],在从天文、地理、生物医学等诸多学科领域的广泛使用。从基因组学、蛋白质组学等单一组学的研究,到现今的多组学研究;从单一病种癌症的研究到泛癌症的研究。多种高通量实验方法产生了大量数据,使得从不同尺度研究生命的奥秘成为可能。

与此同时,数据所承载的责任也越来越大。一方面,数据是科学研究重要的产出之一,监管机构和社会需要用公开透明的数据来证明科学研究的可再现性和可重复性。随着AI和计算机计算能力的增强,对于数据的全自动化应用以及与高速计算无缝对接的需求也越来越高。国家、社会和科研人员也要求,对高成本投入产生的各类科学数据能从不同角度重复利用,以达到价值最大化。所以,提升科学数据的可再利用性是数据管理的核心目标。

科学研究数据在近些年迅速发展,在诸多学科成为发展的重要推动力。例如,TCGA数据库,存储了33类癌症患者的测序数据、病史资料和病理图像数据等。为癌症发生机制、分子分型、预后影响因素研究,以及人工智能病理读片技术等多个领域的发展提供了重要支持[2]。然而,截至目前仍存在多种障碍阻碍用户对于大量现存的科学数据的再利用。这些困难包括:无法获知数据集信息;无法获取数据说明信息;没有合理合法渠道得到数据实体资源;获取实体数据后,不知道用户的基本权利和义务;获取实体数据后,无法得知数据的真实含义导致错误应用等。同时,由于数据质量和异质性所导致大规模计算的瓶颈效应也越来越明显。

造成这类问题的原因复杂。既有社会心理文化层面的原因,也有技术层面的原因。虽然我国已经颁布了《科学数据管理办法》,但是由于相应的责任权利不明,科研人员参与科学数据汇交和共享工作的动力不足。此外,对于数据安全及其危害缺乏明确定义,也给数据公开共享带来了顾虑。另一方面,我国对于生产实践领域的数据标准比较重视,在科学数据领域,由于数据分散度高、数据类型复杂且变化快,在数据标准化建设和实施方面与国际上差别较大。特别在《科学数据管理办法》颁布后,迫切需求建立一个科学数据管理的跨领域指导原则,并在此基础上建立各个学科通用数据类型的标准体系并据此为数据管理流程和评价标准建设提供可实施的依据。

2016年FORCE11组织正式提出了在科学数据管理领域引入FAIR准则[3]。FAIR准则,明确了科学数据管理的目标,在研究政策和科研数据管理计划需求方面具有里程碑意义的政策和需求。该准则被提出以来,受到科学数据管理领域的广泛认可,对于如何实施该准则以及如何将其与各个专业领域进行结合进行了广泛的研究和讨论。

2 FAIR准则及其内涵

FAIR是指导如何通过数据管理,将科学数据建设成为可查询(Findable)、可获取(Accessible)、可互操作(Interoperable)并且可重利用(Reusable)的基本指导原则。

2.1 可查询

数字资源应该很容易被人或者机器查询到,这有赖于相关的数据集或者数据服务应该以清晰明确的方式被标识、描述、注册并被索引。这意味着,数字资源应该被分配给一个唯一永久标识符;数字资源应该有充分的元数据注释;数字资源的主要特征应该以标准格式被记录;应该在公开的数据库存储和索引。

2.2 可获取

应该对数字资源获取方式进行清晰定义,包括如何获得受保护数据的使用授权。在理想情况下应该是一种自动化的方式进行获取数据的验证,判断是否符合授权条件。元数据(metadata)也应当是可获取的,即使其原始数据已经不再提供服务。

2.3 可互操作

可互操作是指关于同一个主题或者客观实体的两个或者更多的数据资源,可以被机器自动整合。或者,在线的网络服务可以自动判断它与目标数据之间是否兼容,并且他们直接按可以进行自动交互。这要求数据资源或者网络服务的描述具有语义上足够的清晰度。

2.4 可重利用

为了实现数据可重利用的目标,应该依据研究领域的标准对数据来源出处进行详细记录。这些来源出处信息包括准确的数据描述、取方式和应用许可等。据此,无论人还是机器可以判断目标数据资源是否可以重用,应该如何争取重利用。

从操作层面来讲,FAIR准则涉及所有的数字资源,既包括数据,也包括软件、代码和工作流。表1总结了FAIR准则的主要内容[3],概括来讲这些内容包括:①对各种形式的数字内容和知识分配唯一的标识符,以确保这些数字资源可以被检索;②数字资源应该具有高质量的(元)数据;③使用通用术语和本体,以确保语义兼容性和查询的可靠性;④建立具有研究领域内可以共识的内容标准促进知识的利用;⑤对于数据有关于其来源的详细描述,保证数据研究成果的可再现性(reproducibility);⑥在公开的数据库进行高质量元数据的注册,为未来可能的内容检索提供支持;⑦建立可靠的数据访问的技术和政策保证。

表1 FAIR数据准则内容

续表

FAIR标准一个重要的核心目标是实现数据的机器可操作(machine-actionable)[4]。为了最终实现这一目标,提供充分的机器可以理解并自动操作的元数据是实现这一目标的第一步。这些信息不仅应该包括传统的对数字对象基本背景的介绍,对于科学研究数据而言还应该涵盖数据采集过程中实验环境信息、数据处理分析信息以及让第三方用户能够理解数据的其他必要信息。对于元数据信息,将其简单公开是远远不够的,还应当以人和机器可以理解的方式进行表示。这需要构建元数据的表示模型,并利用本体实现语义支持。元数据应该在可共享的平台注册,分配唯一的ID。元数据应该比其说明的实体数据有更长的生命周期,以保证可能的检索和应用。

FAIR并不代表着数据的无条件公开。我国2018年正式颁布的《科学数据管理办法》明确规定“政府预算资金资助形成的科学数据应当按照开放为常态、不开放为例外的原则”。在生物医学领域,积累了大量的受试者个人健康信息,以及患者的医疗信息。这类数据无疑有很大的科学价值,因此在这类科学数据管理中应特别关注到可能涉及隐私、安全和保密的情况。此外,对也要保护数据可能的商业利益以及承认尊重数据采集和加工人员的付出。因此,FAIR准则在实施过程中,应该本着实现“尽可能开放,尽需求封闭”(As Open as Possible, as Closed as Necessary)为原则[5]。即使不能公开的数据,也应利用符合FAIR准则的元数据描述数据产生、知识产权状况、用户使用规则、权利与义务,并据此建立用户的查询、访问和数据使用的规范和保护措施,从而实现《科学数据管理办法》中“分级管理、安全可控、充分利用的原则,明确责任主体”的要求。

3 FAIR准则实施的技术要素

自从FAIR准则被公布以来,得到了国际上与科学数据关联的利益相关方的广泛认可,认为这是科学数据发展过程中一个里程碑意义的准则。其认为,通过FAIR准则的实施,将极大方便科学数据的再利用,提升数据的整合应用,并为人工智能等新的数据处理分析方法提供便捷,是提升利用科学数据利用程度的必要手段。同时也为监督科学研究结果的可重复性和再现性提供支撑,最终也是提高科学数据信誉的有效途径。

FAIR准则的实施,既需要科学社群共同努力建立相应的文化基础,也需要建立该准则能够实施的技术支持环境。这样的系统环境应该涵盖以下要素:获得研究者认可且可以跨领域实施的数据标准,指导FAIR实现的一个过程性框架以及依据FAIR准则建立的数据评价标准。

3.1 数据标准

FAIR准则中涉及的数据和元数据标准主要包括最小信息标准、数据语义层面的术语标准和数据的格式标准三个层次[3]。这些数据标准本身也是FAIR所定义的数据对象之一,也应该以符合FAIR准则的形式存在。

第一,最小信息标准[5](Minimum Information Guidelines)通常也称为数据内容标准或报告指南,是指要理解一个数据对象及其背景所必需的说明信息。现在生物医学研究中,以组学数据为代表的实验数据均是由复杂的实验系统产生,整个流程可能包括实验设计、样本采集状态、实验方法、实验仪器和分析方法等信息的数据。通过元数据充分记录这些信息的数据能否被广泛认可、使用、整合以及再利用的关键因素。对于数据的再利用者来说,元数据需要尽可能丰富,然而过于冗长的元数据不仅会对实验人员造成较大负担,也会对数据的存储造成困难。因此针对性的制定特定领域的关于元数据的最小信息标准,使其被各利益相关方接受,是这类高通量数据被重利用的关键因素。如今许多相关机构开始从事最小信息标准的制定——即理解或者重利用复杂体系产生的数据所需的最小元数据项。微阵列实验最小信息标准[5](Minimum Information About a Microarray Experiment,MIAME)是最早出现的元数据标准,并获得较广泛的应用。随后最小信息标准逐渐出现在其他领域,如蛋白质组学实验最小信息标准[6](Minimum Information About a Proteomics Experi-ment,MIAPE)和基因组的序列最小信息标准[7](Minimum Information about any Sequence,MIxS)等。值得注意的是,许多最小信息标准,目前还是以文本的形式存在,可实施性较差。如何将其转化成FAIR所要求的形式,并为用户提供便利支持是FAIR具体实施的重要工作之一。

第二,术语标准规范了客观物件或者概念的名称、定义以及并提供明确的标识,从而为实现机器间“语义”交流建立基础。术语标准的存在形式有多种,从可控词表、术语表、分类词表、叙词表到本体,其形式化程度逐渐增强,功能逐步丰富,复杂度也大幅度提升[6]。本体(ontology)是当代计算机科学与信息科学催生的一种新的知识组织方式,它不仅规范特定领域中实体的概念、属性和定义,还通过描述逻辑规范了实体间相互关系,提供对领域知识的共同理解。在过去二十年中,生物医学领域本体建设日渐规范,资源和工具日益丰富,逐渐成为生物医学数据建设的强有力工具[7]。

利用本体中的术语,可以实现数据和元数据的语义标准化。在实现数据质量提升的同时,也为大规模数据整合提供基础。同时,本体可以促进自然语言文本和数据的自动化标注,进而借助于本体提供的语义关系,引入更多的数据分析方法。

虽然本体的重要性逐步得到认可,但是对于大多数本体而言,其利用度仍需进一步提升。造成这种现象的原因是多方面的。首先,本体使用的技术难度较高。特别是一些大本体,如何利用其复杂结构和庞大的术语对有限的数据进行注释,对于从事数据采集和管理一线工作的科研人员门槛较高,需要更多用户友好工具的开发。其次,生物医学本体本身有较大的异质性。在国际上最著名的生物医学本体平台NCBO BioPortal[8]中,截至撰稿时为止(2019年12月10日),存储了八百多个本体。这些本体间的异质性,进一步如何进行本体间术语的映射关系,为用户使用这是标准术语带来了新的困难。第三,目前国际上多数本体仅提供英文版本,但是需要使用本体的语言环境是多样化的。因此,在建设高质量本体资源的同时,应该进行各类使用工具的开发,促进科研人员和数据管理人员在日常工作使用本体进行数据标准化。

第三,格式标准是不同机构之间共享数据或软件程序之间交换数据的统一格式,既包括文件的格式,也包括数据模型。这类数据标准在过去几十年中,得到了高度重视和认可。例如在基因组测序领域,记录原始测序的FASTQ格式的文件到记录基因序列突变信息的VCF格式文件,均是被学界和产业界广为接受的数据标准格式。

上述三类标准互相组合、互相支撑,构成了一个领域进行计算机互兼容、互操作的内容标准系统。例如,为了建立符合FAIR准则的某一科学研究领域实验数据集,元数据内容项应该符合该领域公认的最小信息标准,对于某一具体的元数据的表示应该在使用通用的数据元素的表示模型基础上,利用本体进行数据元素的概念定义;并利用本体对具体数值进行注释。要完成此类标准化工作,仍需要多领域合作进行大量的支撑性资源建设与工具开发。

3.2 FAIR实现基本步骤与评价标准

通过数据管理使数据达到FAIR准则设定目标的过程应该是一个分步骤的、不断提升的过程。Annika Jacobsen 总结了通用的建设FAIR数据的步骤,作为数据建设的框架性指导[9]。在这个过程中,强调分别对数据和元数据进行语义模型的建设,并利用此模型实现两者关联数据(linked data)的建设。最终将数据与元数据以机器可以理解和操作的方式表示出来。

无论在数据建设过程和数据管理过程中,需要不断了解数据符合FAIR的程度,以及需要进一步改进的问题。因此,需要建立明确的、有识别力的、可测量的并且通用性强的指标。目前,国际上促进FAIR实施的机构GO FAIR近期提出进行数据质量评价的指标体系[10],该评价体系围绕FAIR准则中技术细节定义了各类别评估指标,后续将开发相应的自动化测试方法和评估工具促进这套指标的客观使用[11]。这些指标体系的可用性仍需要实践检验。

4 FAIR数据建设的支持与服务

有效的FAIR数据建设应该从数据采集方案的设计开始,将数据标准化与数据采集的标准化结合,保证后续数据完整性和质量保证,真正实现“全数据链”的数据管理。在整个链条中,有多方人员参与,需要大量的信息化资源和软件的支持,才能完成。

本体在数据标准化和构建语义模型过程中扮演重要角色,是FAIR准则实施过程中重要的支撑资源。为了构建高质量、互兼容、一致性好且非冗余的生物医学本体,开放性生物与生物医学本体铸造工厂(OBO Foundry)国际生物医学本体组织基于开放(Open)、合作(Commitment To Collaboration)和通用格式(Common Format),开发了一系列生物医学本体[12]。OBO本体均以基本形式化本体(Basic Formal Ontology,BFO)为顶层,建设了100多个领域参考本体例如Chemical Entities of Biological Interest (ChEBI)[13],Disease Ontology(DO,疾病本体)[14], Human Phenotype Ontology(HPO,人类表型本体)[15]和Ontology for Biomedical Investigations(OBI,生物医学研究本体)[16]等,为国际上众多的生物医学数据库和知识库提供支持。

NCBO BioPortal是国际上收录生物医学本体最多的资源平台,在提供本体的一站式检索的同时,还提供本体的应用和可视化的工具。目前,NCBO BioPortal在线提供服务的本体数量达826个,术语总量超过一千万。NCBO BioPortal还提供的基于图数据库的开源本体管理软件框架,为多专业领域多语言本体资源应用提供支持,并由此建立了OntoPortal Alliance[17]。国家人口与健康科学数据中心(基础医学)建设的MedPortal本体资源平台(http://medportal.bmicc.cn)[18]也是OntoPortal Alliance成员之一。MedPortal中存储了中心翻译和建设的中文OBO本体、整合了医学领域常用术语集的中文版,例如ICD-9-CM, ICD-10和ICD-11等(详见表2)。该平台还提供数据的本体数据注释,不同本体间术语映射以及API编程接口服务。美国密西根大学何勇群教授课题组开发的OntoFox[19]和OntoRat等本体工具,支持生物医学本体的开发和本体术语的复用。

表2 MedPortal提供中文服务的本体

在FAIR准则中,明确要求高质量的数据应该具有明确、具备语义模型的元数据。在生物医学领域,已经有大量工作致力于整理或收集不同领域的元数据,利用数据元素框架,并结合本体或标准术语集,建立通用数据元素(Common Data Element,CDE)库,以期为数据整合、分析和互操作提供支撑。具有代表性的是CEDAR[20], 用户可以利用CEDAR模板,构建本体支持的、符合ISO/IEC 11179标准的元数据。美国国立癌症研究所(National Cancer Institute, NCI) 开发的通用数据元素数据库caDSR,是在兼容并扩展ISO/IEC 11179标准基础上,利用生物医学领域里具有广泛术语覆盖度的本体NCI Thesaurus (NCIT) 作为语义支撑[21]。像TCGA,dbGap和 eMERGE等具有广泛影响力的联合研究项目,也将其项目中的元数据与caDSR数据库中的数据元素建立了映射[22-24]。这些数据元素不仅是理解这些公开数据的重要资源之一,用户也可重利用,用于自己的数据项目。目前,已有成功案例表明,通过使用caDSR等通用数据元素库,增强了数据的互操作性[24]。

5 结语

我国在过去二十年中,生物医学数据积累迅速增加,却造成了数据量大但是具有国际生物的数据产品少的局面,科研人员对于国际数据的依赖有增无减。建设符合我国科研人员和数据管理人员数据管理流程和数据建设环境,是提升生物医学领域数据质量的重要前提和支撑条件。FAIR准则所倡导的基本原则,对于规范数据管理流程具有重要意义。一方面要引进和自建相结合,建设完备的生物医学科学数据内容标准,同时为用户提供便捷的标准使用信息平台和服务;另一方面,针对围绕科学数据的产生、管理和发布的各个环节,明确各方的责任与义务,建立符合FAIR准则规范、流程、评价标准,并不断建设支撑这些管理措施实施的技术环境。通过FAIR准则的实施,建设可重利用的科学数据,实现科学数据价值的最大化。

(致谢:感谢中国医学科学院关健教授对本论文起草、撰写、发表等过程中的指导和帮助。)

猜你喜欢

生物医学数据管理本体
广西医科大学生物医学工程一流学科建设成效
蝾螈的皮肤受伤后可快速愈合
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
灵长类生物医学前沿探索中的伦理思考
海洋环境数据管理优化与实践
眼睛是“本体”
CTCS-2级报文数据管理需求分析和实现
融百家所思,成生物医学之言——生物医用材料分论坛侧记
一种基于社会选择的本体聚类与合并机制