APP下载

《科研数据管理国际联盟实用指南》研究及启示*

2021-07-26王丹丹董金金杨嘉敏

数字图书馆论坛 2021年4期
关键词:知识库数据管理科研人员

王丹丹 董金金 杨嘉敏

(河南科技大学管理学院,洛阳 471023)

共享和重用有质量保证的科研数据是良好的科学实践倡导的行为[1]。科研数据管理(Research Data Management,RDM)是指在科研活动进行过程中和科研活动完成之后处理科研数据(收集、组织、存储和记录数据)的活动[2]。数据管理计划(Data Management Plan,DMP)实际上是一份书面文档,描述项目期望在研究过程中获取的现有数据或生成的新数据,描述如何管理、分析和存储这些数据以及在项目结束时将如何共享和保存这些数据[3]。数据管理计划有助于科研人员就如何、何时以及在何处共享哪些数据做好规划。许多科研资助机构和科研机构都制定了数据管理政策,提出了关于数据管理计划的要求。然而,不同的机构数据管理政策存在较大差异,导致科研人员在遵从政策和满足要求时感到困惑,无所适从。科学欧洲(SCIENCE EUROPE)是于2011年在柏林宣布成立的一个科学联盟,它代表欧洲主要科研资助机构和科研机构的利益[4]。科学欧洲和荷兰科学研究组织(Netherlands Organisation for Scientific Research)于2018年发起了一项倡议,通过明确数据管理计划的核心要素和选择知识库的最低标准来支持欧洲科研资助机构、科研机构校正科研数据管理政策,减少政策的不一致性,为其他机构制定科研数据管理政策提供统一的基础[5]。2019年《科研数据管理国际联盟实用指南》(Practical Guide to the International Alignment of Research Data Management)正式发布,之后欧洲一些国家和机构采用了其建议[6-8]。2021年科学欧洲又发布了《科研数据管理国际联盟实用指南(扩展版)》[9],将第1版中的第三部分“指南”进一步细分为“科研人员使用指南”和“评审专家使用指南”两部分(见表1)。本文结合应用情况,对两个版本的《科研数据管理国际联盟实用指南》进行深入分析,以为我国相关机构制定政策、出台办法提供启发和参考。

表1 《科研数据管理国际联盟实用指南》两个版本的内容对比

1 《科研数据管理国际联盟实用指南》内容分析

1.1 数据管理计划的核心要求

要求科研人员撰写数据管理计划的目的是鼓励科研人员考虑数据的最佳处理、组织、记录和存储的方式方法。但是,由于不同机构数据管理计划的要求不一致,以及科研人员对数据管理计划的认识不到位等原因,很多科研人员认为数据管理计划是强加给他们的负担,而不是他们在规划和实施科研项目时的一种有用手段。

为解决数据管理计划要求的不一致性,2013年英国数字监管中心(Digital Curation Centre,DCC)提出“数据管理计划主题”(DMP Themes)的概念,用于统一数据管理计划中最常出现的主要问题。数据管理计划主题已从最初的29个[10]精简为目前的14个,分别是数据描述、数据格式、数据量、数据收集、元数据&文档、道德&隐私、知识产权、存储&安全、数据共享、数据知识库、长期保存、角色&责任、预算、相关政策[11]。同样为了解决这一问题,《科研数据管理国际联盟实用指南》则将数据管理计划必须包含的关键核心内容总结为6个方面,并将其命名为“数据管理计划的核心要求”,具体包括:①数据描述和收集,或重复使用现有数据;②文档和数据质量;③研究过程中的存储和备份;④法律和道德要求,行为准则;⑤数据共享和长期保存;⑥数据管理职责和资源。这6个方面并无先后之分,无重要次要之说,可以根据特定需求和机构侧重点更改其出现的顺序。所谓核心要求实际上是对数据管理计划提出的最低要求或最基本要求,要求在科研人员撰写的数据管理计划中均应充分体现。因为支持科研人员撰写数据管理计划的模板多以问题方式呈现,科研人员通过回答问题自动生成数据管理计划文档,所以《科研数据管理国际联盟实用指南》将数据管理计划的核心要求与具体问题一一对应(见表2)。

1.2 选择可信赖数据知识库的标准

提供对科研数据的获取是实现可靠的、可重复科学研究的支柱之一。越来越多的科研资助机构、科研机构和学术期刊要求科研人员将数据存储在知识库中。可信是数据共享的关键问题。科研人员需要能够识别可信赖的知识库,以便在其中存储数据以实现共享。当前还没有此类知识库的公认列表,综合性的全球科研数据知识库注册目录系统(re3data.org)中已罗列出的知识库有3 590多个。但是,这些知识库的成熟度和可信度很难评价[12]。

评估认证是证明可信的有效途径。一些权威的认证机构,如由国际科学理事会世界数据系统(World Data System of the International Science Council,WDS)和批准数据印章(Data Seal of Approval,DSA)共同成立的认证组织CoreTrustSeal,可以提供认证[13-15]。中国天文数据中心、中国国家空间科学数据中心等一些知识库通过了该认证,但是大多知识库尚未开展此类认证。因此,对于科研人员及其隶属的科研机构和科研资助机构而言,确定合适的、可信赖的知识库依然困难重重。莱顿大学为此专门开发了“数据管理服务目录”,以目录形式提供各种数据知识库信息,帮助科研人员选择合适的知识库,这也成为其科研数据管理服务的一大特色[16]。

某些学科的科研人员会使用特定学科的数据知识库,这些知识库的政策和标准主要是满足特定要求的。其他数据知识库则服务于更广泛的研究群体,但它们的政策和标准也必须更加通用。为了便于科研人员识别可信赖的数据知识库,《科研数据管理国际联盟实用指南》强烈建议尚未进行认证的数据知识库积极考虑寻求权威机构的认证,并建议科研人员优先选择得到广泛认可的特定学科知识库或经过认证的知识库。对于没有经过认证的知识库,《科研数据管理国际联盟实用指南》列出了数据知识库的选择标准(见表3)。需要说明的是,这些标准是数据知识库都应满足的最低标准,且标准之间不存在先后之分,无重要次要之说。

表3 数据知识库的选择标准

1.3 指南

1.3.1 科研人员使用指南

(1)撰写数据管理计划文档。科研人员在撰写数据管理计划时,要回答15个具体问题,还应该提供项目申请人姓名、项目名称、项目编号和数据管理计划版本这些基本信息。

关于收集或产生新数据和/或将如何重复使用现有数据,要求科研人员说明使用哪种方法或软件收集或产生了新数据,陈述重用现有数据的限制(如果有),解释记录数据来源的方式,说明是否考虑过重用现有数据源但最终放弃的原因;提供有关数据类型的详细信息,如数字(数据库,电子表格)、文本(文档)、图像、音频、视频和/或混合媒体等,以及提供有关数据格式(用于存储的数据编码的方式)的详细信息,通常通过文件扩展名(如pdf,xls,doc,txt或rdf)反映出来,建议科研人员合理使用数据格式,如基于所属机构内的员工专业知识,优选开放格式和数据知识库接受的标准格式,同时建议研究广泛使用的或即将使用的软件或设备生成的数据格式;提供有关数据存储空间大小的信息。

关于文档和数据质量,要求科研人员说明提供哪些元数据来帮助其他人识别和发现数据,以及使用哪些元数据标准(如DDI、TEI、EML、MARC、CMDI)或研究社区特有的元数据标准,指明在项目期间如何组织数据,如命名约定、版本控制和文件夹结构;会提供哪些数据文档(提供有关用于收集数据的方法,分析和程序信息,变量的定义,度量单位等信息)支持数据的重用;如何捕获这些信息以及将其记录在何处(如项目链接、“自述”文本文件、文件头、代码书或实验笔记本的数据库中);将使用哪些数据质量控制措施(包括校准、重复采样或测量、标准化数据捕获、数据输入验证、数据的同行评审等)控制和记录数据收集的一致性和质量。

关于研究过程中的存储和备份,要求科研人员描述科研活动期间将在哪里存储和备份数据,以及执行备份的频率;说明发生事故时如何恢复数据;说明在研究过程中谁有权获取数据,以及如何控制合作伙伴对数据的获取;介绍如果存在敏感数据(包含个人数据、政治敏感信息或商业秘密)如何实施保护。

关于法律和道德要求以及行为准则,要求科研人员确保在处理个人数据时,获得有关保存和/或共享个人数据的知情同意,对个人数据进行匿名化或假名替换处理,或者进行加密,说明是否有针对授权个人数据的获取程序;要求科研人员解释获取数据的条件,明确数据的使用许可;鼓励科研人员考虑道德问题是否会影响数据的存储和传输方式,要求遵守国家和国际行为守则和机构道德准则,并检查在研究项目中收集数据是否需要进行道德审查(如由道德委员会审核)。

关于数据共享,要求科研人员说明如何发现和共享数据(通过将数据存放在可信赖的数据知识库中,在目录中建立索引,使用安全数据服务,直接处理数据请求或使用其他机制等);关于长期保存,要求科研人员概要介绍数据保存计划,提供有关数据保存时间的信息,说明提供数据的时间以及数据出版时间,指出哪些人能够使用数据,并解释原因,说明将采取什么措施来克服对数据的限制或将对数据的限制降到最小,还要指出出于合同、法律或法规目的必须保留或销毁哪些数据,说明保留或销毁的依据,描述要长期保存的数据,并说明其可预见的研究用途(和/或用户)。说明数据存放在何处,如果没有建议的数据知识库,需要在数据管理计划中证明可以有效地管理数据。要指出潜在用户需要哪些特定工具和程序来访问和(重新)使用数据,在数据管理计划中说明如何在其他情况下重复使用数据,表明是否将使用数据的唯一性标识符。

关于数据管理职责,要求科研人员概述数据管理/管理活动的角色和职责,如捕获数据、生成元数据生产、把控数据质量、存储和备份数据、数据归档和数据共享,要求尽可能落实到人。对于协作项目,需要说明合作伙伴之间数据管理职责如何进行协调,指出谁负责实施数据管理计划,确保对其进行审查,并在必要时进行修订,定期更新数据管理计划。关于资源,要求科研人员说明共享/保存数据所需资源,如存储成本、硬件、员工时间、准备数据以存储数据的成本和数据知识库费用等,指出是否需要其他资源。如果是,说明需要多少以及如何支付这些费用。

(2)选择数据知识库。选择可信赖数据知识库的第一个标准是提供永久且唯一的标识符(PID)。并非所有知识库都使用公认的通用PID系统,有些是使用知识库本身维护的本地标识符或管理号。如果将数据移到另一位置,或者知识库不复存在,重新组织或更改其监管方式,则存在找不到数据的风险。数据知识库提供的PID能够发现和识别数据,可以搜索、引用和检索数据,同时支持数据的版本控制。为此,知识库须确保为其所保存的数据分配PID(如DOI、URN、ARK),并将PID包含在相应的元数据中,即使存储数据的位置发生了变化,也可以找到、引用和检索相应的数据和元数据。确保明确指定存储在知识库中的数据版本,并持续进行审核跟踪。

选择可信赖数据知识库的第二个标准是元数据。数据需要使用丰富的元数据进行描述,元数据应记录数据的生成方式、许可证的使用方式以及如何重复使用,并提供适当的背景信息。数据知识库的元数据支持数据发现和对相关信息(如其他数据和出版物)的引用,提供公开可用和维护的信息,甚至包括未发布、受保护、撤回或删除的数据。元数据采用的是被科学界广泛接受的元数据标准,且机器可检索。这就要求知识库:基于公认的、易于访问的语言提供数据和元数据,能确保其他人可互操作和重用数据;使用标准词汇表和格式描述数据和元数据,使计算机系统可以搜索,自动组合它们以及将元数据与科研数据文件区分开;确保通过提供PID和对科学关系的描述,在元数据信息中声明与其他相关或关联信息的链接;科研人员存在永久的研究ID(如ORCID、ISNI、DAI);确保长期保存元数据,确保通过元数据仍然可以找到由于不良的研究实践或不当行为而撤回的数据,并将其保存起来,以便检查研究记录;确保由知识库维护的元数据是机器可检索的,并使用被(科学界)广泛接受的标准;确保遵循社区标准或数据处理最佳做法(如果存在);鼓励以允许机器检索元数据的方式来构造元数据中包含的信息。

选择可信赖数据知识库的第三个标准是数据获取和使用许可。具体而言,就是需要知识库支持特定条件下的数据获取,确保数据的真实性和完整性,支持数据检索,提供有关授权和许可的信息(最好是机器可读的形式),并具有保密功能。这就要求知识库:清晰阐释可以重用数据的条款,并将许可信息包含在元数据中;确保元数据包含有关数据来源的详细信息,包括其生成方式、处理方法、复用条件及可靠性;允许使用开放的标准化协议(非专有通信协议)检索数据或至少检索元数据;允许以结构化的方式引用许可证信息,在可能的情况下,应使用可以通过URL引用的通用或被广泛接受的许可系统(如Creative Commons);提供一种对人和机器用户进行身份验证和授权的方法,允许设置用户(组)特定的访问权限,以解决数据存在的机密性和其他限制问题。

选择可信赖数据知识库的第四个标准是保存。知识库须确保元数据和数据的持久性,确保使命、范围、保存政策和规划的透明性。具体而言,就是确保用户委托的数据和元数据的长期保存,持续可用以及可获取。这就要求知识库:以书面文件形式说明数据和元数据的管理保存策略,详细说明知识库的任务和范围、监管、资金可持续性、外包合作伙伴和保存的时间范围;制定可公开获取的应急计划,确保在知识库的整个生命周期之外保留数据和元数据。

1.3.2 评审专家使用指南

这部分为评审专家提供了一个研究工具——数据管理计划评价量表(DMP Rubric),使其可以对本机构的数据管理计划进行大规模、标准化的分析。这一评价量表是针对数据管理计划的6个核心要求所涉及的15个具体问题设置的,以实现数据管理计划评价与数据管理计划撰写和支持服务的统一。不同于其他的一些评价量表(如DRAT Rubric设置的是三级评分体系[17]),数据管理计划评价量表设置了“充分处理”和“处理不足”两个评价等级(见表4)。需要说明的是,该部分只是为评审专家提供了一个参考大纲,而不是可以直接使用的现成工具。因此,希望为评估数据管理计划制定检查清单的组织可以基于此框架进行相应调整。同时也请评审专家记住数据管理计划是一份实时文档,其详细程度可能会有所不同,具体取决于所评估的版本。

表4 数据管理计划评价量表展示(部分)

2 《科研数据管理国际联盟实用指南》及其应用的启示

通过对《科研数据管理国际联盟实用指南》的解读以及欧洲国家应用该指南的情况分析,可以得到的重要启示是,要推进科研数据管理需按紧迫程度从以下3个方面着手。

2.1 制定科研数据管理政策并推动落实

科研资助机构和科研机构组织制定科研数据管理政策并提出数据管理计划要求,是其适应不断发展的开放科学运动,促进数据共享,允许重复使用、验证或复制研究结果而迈出的重要一步。在制定科研数据管理政策并推动落实的过程中要关注以下问题。首先,在制定科研数据管理政策时,科研资助机构和科研机构要重视在本组织内部和外部进行协作,因为所有利益相关者的参与都会增加对新政策的接受度。不同参与者之间的协作和收集反馈对于成功制定被广泛接受和支持的科研数据政策至关重要。尽管《科研数据管理国际联盟实用指南》提供了制定数据政策的统一基础,但采纳指南的机构和国家在具体化政策过程中,均无一例外地采用与其他利益相关者协作的方式。一些机构仅专注于在内部制定科研数据政策,一些机构则在国家层面上与其他组织开展合作,这种合作模式将国家层面最相关的参与者汇聚在一起,包括与数据存储和可访问性相关的科研资助机构、科研机构、基础架构和服务提供商等[18]。其次,在就新要求进行沟通时,科研资助机构和科研机构应直接与所有相关方(包括科研人员、法律部门、财务部门、宣传部门等)进行接触,并向其解释其基本概念和益处。需要确保所有核心要求被满足,并在需要更多信息时提供特定学科的灵活性,如添加与任何特定学科相关的更多问题。最后,在实施科研数据管理政策时,科研资助机构和科研机构需要充分认识到实施新政策期间和实施之后,科研人员、其所属机构和资助组织所面临的挑战,协同工作,考虑为科研人员科研数据管理提供有效支持的方案,如设置数据管理计划模板和提供数据管理计划培训等。

2.2 充分发挥科研联盟机构的合作优势

《科研数据管理国际联盟实用指南》是为科研资助机构、科研机构,以及科研人员个人组织科研数据并适当保存提供的针对性指导。这些机构与个人均可以数据管理计划的核心要求为基础来设置自己的数据管理计划模板。在后续阶段,可以将《科研数据管理国际联盟实用指南》提供的数据管理计划评价量表作为评估数据管理计划质量的参考工具。科研机构和科研人员在撰写数据管理计划时可以参考以获取支持。对于研究领域的其他参与者,《科研数据管理国际联盟实用指南》可作为有关数据管理计划结构和使用方式的参考文档。选择可信赖知识库的标准将有助于科研资助机构、科研机构和科研人员确定用于存储和共享数据的知识库。数据管理计划的核心要求和选择可信赖知识库的标准可以视为独立文件,可以独立使用。但是,在制定或修改机构或特定学科的政策时则需要同时考虑这两者,以便在机构之间实现最佳的一致性。指南之所以能发挥上述作用,与科学欧洲充分发挥其科学联盟的合作优势是分不开的。科学欧洲组织其成员单位的专家一起发布了数本有关数据管理的出版物,为在跨学科和跨组织的政策调整方面提供了实用指南[19]。指南发布以后,之所以迅速在欧洲被广泛采纳和使用,离不开科学欧洲的宣传推广。作为科学联盟的科学欧洲提供了一个合作交流的平台,在宣传推广方面具有得天独厚的优势,它形成了一个天然的实践社区,提供已成功实施数据管理政策的组织的最佳实践示例,帮助和指导仍在探索制定政策的组织和机构。指南采纳现状和实施效果全景图的绘制也是得益于成员单位的配合和支持,实施效果全景图为指南版本的更新提供了有价值的参考。

2.3 理顺数据管理与FAIR原则的关系

FAIR原则、科研数据管理以及数据管理计划均是创建可重用数据和优化数据共享必不可少的要素。FAIR原则从微观上定义了确保数据可发现、可访问、可互操作、可重用的指导原则,其核心目标是实现数据的机器可操作性[20-21]。科学欧洲积极倡导科研数据遵循FAIR原则。它与其成员组织和其他利益相关者合作,协调政策和程序,并提供明确的指导方针,支持科研人员进行数据管理。科学欧洲的目标是在整个欧洲统一科研数据管理政策和数据管理计划要求,从而使来自不同组织或学科的科研人员以及更换资助机构或所属单位的科研人员之间更容易开展合作,也使科研资助机构和科研机构更容易评价数据管理计划并实施自己的政策。欧洲开放科学云(EOSC)在促进数据的共享和重用方面,发挥着至关重要的作用。2018年6月,欧盟委员会的FAIR数据专家组在第二次欧洲开放科学云峰会上发布了《把FAIR变成现实》的报告,较为全面地阐述了FAIR原则的推进计划以及34条详细的实施建议[22]。科学欧洲积极参与了欧洲开放科学云的开发和推广,支持在科研数据的所有活动中采用EOSC。与此同时,还积极促进FAIR原则的应用,开展并协调各项活动,以增强科学欧洲的集体影响力和知名度。《科研数据管理国际联盟实用指南》的最终目的也是帮助科研人员在适当情况下确保数据遵循FAIR原则,甚至在数据存储、项目期间的备份以及长期保存等其他方面已经超越了FAIR原则。

3 结语

实施科研数据管理已经成为一种全球性趋势。在实践推进过程中,越来越多的利益相关者认识到,推动科研数据管理政策趋向标准化和统一化的重要性和必要性,并且积极参与到科研数据管理政策标准化和统一化理论研究与工作实践。从英国数据监管中心提出DCC Themes,期刊出版商Springer Nature推出科研数据政策标准框架,到科学欧洲发布《科研数据管理国际联盟实用指南》都有力证明了这一趋势。与国际社会相比,我国科研数据管理起步较晚,但是发展迅速。我国的科学联盟、科研资助机构、科研机构有必要学习国外在科研数据管理政策标准化和统一化实践方面的有益经验,出台相关政策和办法,有效推动我国科学数据管理工作的有效开展。《科研数据管理国际联盟实用指南》提出的数据管理计划核心要求和知识库选择标准,对我国相关机构和科研人员也同样具有重要参考价值。我国的科研资助机构应该了解政策标准化发展的国际进展,在遵从标准化的前提下,制定适合我国国情的具体政策,其中对数据管理计划的要求建议遵从国际标准,但是在数据管理计划模板设计和案例参考方面可以设计自己的方案。其知识库选择的标准可以作为我国国家层面知识库的设计依据。作为科学联盟,科学欧洲成功推进《科研数据管理国际联盟实用指南》采纳的工作机制也值得我们学习。未来,应该把FAIR原则、科研数据管理和开放科学的关系理顺,使科研数据共享的价值最大程度得以发挥。

猜你喜欢

知识库数据管理科研人员
科技部等五部门联合发文开展减轻青年科研人员负担专项行动
企业级BOM数据管理概要
科研人员揭示油桃果实表皮不长毛的奥秘
定制化汽车制造的数据管理分析
汉语近义词辨析知识库构建研究
科研人员破译黑猪肉特征风味物质
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
企业科研人员激励问题及对策研究