APP下载

数据管理计划与FAIR原则融合的维度

2022-12-17蒋子可戴柏清黄一澄

图书馆论坛 2022年11期
关键词:数据管理维度原则

秦 顺,蒋子可,戴柏清,黄一澄

1 问题的提出

1.1 研究背景

21世纪以来,数据密集型研究范式快速发展[1],科学发现越来越依赖于科研数据的收集、处理、分析、共享和利用等数据赋能的业务活动。数据管理计划(Data Management Plan,DMP)作为一份描述科研项目由实施到结束全生命周期内对数据如何进行有效管理的规划,具备“初始值”和“路线图”功能。现阶段DMP实践已在发达国家[2-3]渐次铺开。然而,尽管DMP为数据共享带来了诸多好处,但其潜力尚未得到充分发挥[4],也给科研人员带来了行政和时间上的压力。2016年,在Scientific Data发表的科研数据管理与共享FAIR原则[5](FAIRPrinciples,即:可发现-Findable、可访问-Accessible、可互操作-Interoperable和可重用-Reusable),形成层层递进的机器可操作规范,被证明适合融入DMP的编制与实施过程。

有效的数据管理是(元)数据FAIR化(FAIRification)的关键,编制DMP即是为了实现FAIR原则[6]。例如,FAIRsFAIR是一个旨在促进欧洲FAIR化数据实践的组织,建议为实现FAIR原则提供适当的DMP支持,并为机器可操作的DMP(Machine-actionable DMP,maDMP)制定路线图、指南和工作流程[7]。2018年11月,欧盟委员会FAIR数据专家组推出的《将FAIR变为现实》行动建议3.2和16.1指出,政策和DMP应该是机器可读和可操作的,强调政策必须声明FAIR原则应适用于DMP[8]。2019年11月,国际科学技术数据委员会(Committee on Data for Science and Technology,CODATA)发布的《科研数据北京宣言》[9]声明应按照FAIR原则的精神推动科研数据开放和共享利用,且DMP及政策制定是必要的。然而,如何实现DMP与FAIR原则的科学融合仍是一个悬而未决的现实问题。

1.2 文献综述

学者们主要围绕DMP与FAIR原则融合发展趋势、实践现状和实现方式等开展研究。在发展趋势上,DMP与科研数据政策、工具和标准等深度融合,可进行FAIR化[10],如认为maDMP是DMP发展的未来愿景,且FAIR原则是其赖以发展的生态[4,10];maDMP也被称为下一代DMP,具备全球协作、标准化、机器可操作和FAIR化等特征[2,11]。在实践现状上,两者融合至少已在欧洲、美国和日本等渐趋深化。欧盟地平线2020计划(Horizon 2020)提供的DMP模板高度适配了FAIR原则。Grootveld等[12]于2017年发布的调查显示积极实施该模板的受访者已达6成以上。在实现方式上,两者融合主要通过机器可操作来实现。Miksa等[13]提出将maDMP付诸实践的十大原则,以促成DMP的自动生成和共享。Pergl等[14]介绍了支持FAIR原则的DMP工具,以求将数据管理由负担(burden)转变为受益(benefit)。

基于以FAIR原则来规范数据融合实施过程和步骤的要求,我国亦有学者主张必须实施DMP制度[15],并探索将FAIR原则的理念及内在要求融入科研数据政策内容中,将DMP作为推动数据共享的重要工具,以确保科研数据从一开始就符合FAIR原则的要求,保障数据价值的充分释放[16]。2018年3月《科学数据管理办法》(以下简称《办法》)颁布,尚未要求制定及实施DMP,对FAIR原则也仅是部分支持[16],不利于深化参与全球协同和实现国内标准化。

FAIR原则的融入为DMP功能更新带来了动能,有利于提升科研数据管理与共享工作的效能。一方面FAIR原则的融入可优化DMP的核心组件。FAIR原则体现了数据融合的4个层次,可整合优化数据的收集、组织与描述、存储与备份、共享与重用以及权限与安全、角色与职责等组件[17]的内容结构。基于FAIR原则的DMP所要求提供的信息和施加于数据之上的操作,促进了数据在4个层次的深度融合[15]。另一方面,依靠FAIR原则能提升DMP的机器可操作性。DMP应当是一份“活的文件”,使科研人员能够根据需求、协议、政策、技术和工作人员的变化进行定期审查和修订,实现重复使用;一份公开(public)、机器可读(machine-readable)、开放许可(openly licensed)的DMP更有可能被纳入未来的项目,产生更大的影响[18]。据此,本文总结出DMP与FAIR原则融合的两个维度——以“整合DLC-SH”为外引、以“机器可操作”为内驱。

文献分析表明,全球范围内DMP与FAIR原则融合的实践环境有着显著差异。欧美相关实践成效显著;我国DMP实践工作相对落后,FAIR原则引入尚处于起步阶段,两者融合实践薄弱。为此,本文梳理全球DMP与FAIR原则融合的实践现状,归纳并解析两者融合的两个维度,为我国参与构建全球协同式数据管理格局、融入“数据互联网”全球布局提供参考。

1.3 研究过程

本研究综合运用案例分析法、内容分析法和比较研究法,解析DMP与FAIR原则融合的实践现状,归纳两者融合发展的规律和维度特征,研究过程如下。

第一步,证据源确定及规范化处理。为获取DMP与FAIR原则融合的实践样例,选择DataCite①(https://commons.datacite.org/)作为数据源,初拟检索式1:“TI=FAIR and DMP”和检索式2:“TI=FAIR Principles and Data Management Plan”,分别获得297条、205条数据;其后,构造检索式3:“TI=(FAIR and DMP)OR(FAIR and Data Management Plan)”,共获得549条数据。检索时间皆为2021年10月5日。经验证,检索式1、检索式2获取的数据皆包含在检索式3的数据中,因此选用检索式3的结果。经去重、清洗,共保留128条有效数据,依据发布时间由远到近排序(升序)并编号为S1-S128,是为本文的研究样本。在此基础上,进行发布时间、关键词、作者、机构等的规范化处理和特征值提取,为DMP与FAIR原则融合的实践规律总结提供数据和案例支持。

第二步,融合规律总结和维度析出。在环境扫描和历史解析基础上,结合研究样本的特征值和典型案例提供的证据,从时序趋势、现实动因和主题内涵3个方面归纳DMP与FAIR原则融合的实践规律;遵循内容分析法的类目构建、内容编码等流程,参考国际科研数据政策实践的导向以及保障科研数据、DMP的科学质量与技术质量的本质要求,进一步归纳出DMP与FAIR原则融合的两个维度;采用比较研究法解析两个维度的特性与共性,提出我国发展路径。

2 DMP与FAIR原则融合的实践解析

从外部特征看,128条样本标注的来源地主要为欧美地区,这与其科研数据管理与共享工作体系相对健全以及DMP实践较为普遍和先进有关。按数据存储库划分,实践样例中收割Zenodo数据119条,figshare数据4条,obib、DepositOnce、Liinc em Revista、MIT Press Direct和F1000 Research数据各1条;高频作者分别是英国数字策展中心(DigitalCuration Centre,DCC)的Jones(5条)、瑞士Ed C的Farcal(5条)和荷兰马斯特里赫特大学的Willighagen(4条)等,主要为资助机构、科研教育机构等的利益相关者。通过关键词提取与分类,进一步挖掘DMP与FAIR原则融合在总体情况、基础环境、实践场域、业务流程和应用领域等方面的特征,为实践规律解析提供支撑,两者融合的内容特征见图1。研究发现,DMP与FAIR原则的融合,受国际科研数据政策实践导向的牵引、数据密集型科学发现第四范式的驱动以及多元利益相关者现实需求的赋能。这实质上反应了两者融合的时序趋势、现实动因和主题内涵,对其进行深入解析可为析出DMP与FAIR原则融合的两个维度奠定基础。

图1 DMP与FAIR原则融合的内容特征

2.1 政策导向牵引,交融于数据科学时代

DMP实践可追溯到1966年,最初被用于复杂的航空和工程项目,其后逐渐演变为资助机构的核心任务要求[3]。2014年1月,“联合共建数据FAIR港口”(Jointly Designing a Data FAIRport)学术研讨会在荷兰莱顿的洛伦兹中心召开,国际学术界代表达成FAIR原则的初步共识;2016年3月,FAIR原则正式发布,引发了全球范围内的大讨论和实践热潮[5]。随着FAIR原则的优势不断得到验证,DMP与FAIR原则的融合实践亦逐渐增多。如图2所示,通过统计128条样本的发布时间可以发现:DMP与FAIR原则融合的时间窗为“2016-2021年”,5年来一直呈线性增长态势。两者融合的最早一条数据集是Simms等[19]于2016年4月发布的《促使数据管理计划具有可操作性和公开性》(Making Data Management Plans Actionable and Public,样本S1),概述基于FAIR原则的maDMP具体用例,并设计工作流程。其后两者融合趋势便如火如荼。

图2 DMP与FAIR原则融合的时序趋势

从深层次来看,这种趋势的形成实质上缘于国际科研数据政策实践导向的牵引。FAIR原则发布实施后的功能定位是政策指南,逐渐被全球广泛采纳。2016年欧盟《2020计划框架下的FAIR数据管理指南》(以下简称《FAIR指南》)、2017年欧洲研究理事会《科学出版物与科研数据开放获取实施指南》、2018年英国研究理事会《科学数据管理最佳实践指南》、2019年欧盟《将FAIR变为现实》及CODATA《科研数据北京宣言》、2020年研究数据联盟《数据存储库的TRUST原则》等一系列政策的颁行,对DMP制度、FAIR原则的发展方向进行了指引和规范,也推动了两者的融合发展。2021年1月,科学欧洲(Science Europe,SE)更新了《科研数据管理国际联盟实用指南》[20](以下简称《国际指南》),对DMP与FAIR原则融合的导向更加清晰,并倡导全球化应用。

进一步分析发现,DMP与FAIR原则融合发展的实践基本处于“Gartner数据科学成熟度曲线”最新的生产高地期(Plateau of Productivity,大致为2016年7月后)[21],表明DMP与FAIR原则交融于数据科学时代,且与数据密集型科学发现第四范式互为影响。从图1(b)可见,这一时期的最大特征是开放获取、开放数据和开放科学,这也是科研模式变革中数据管理服务发展的新机遇[22]。

2.2 第四范式驱动,根植于数据管理土壤

数据密集型科学发现被称作科学研究的第四范式,是基于数据的、开放协同的研究与创新模式[1]。DMP制度和FAIR原则皆与第四范式有着紧密的联系,第四范式也成为驱动两者相互融合的现实动因。数据密集型科学由采集、管理和分析3项基本活动组成[1],DMP前置于上述基本活动,FAIR原则亦可为其提供行动指南。如图1(d)所示,128条样本的核心组件包括数据收集过程中的数据获取、元数据管理,数据组织与描述过程中的元数据使用、数据标注,数据存储与备份过程中的可信存储、存档备份,数据共享与重用过程中的数据协作、交换、云使用和引用,数据权限与安全业务中的保密与隐私、应急管理等方面,可见DMP与FAIR原则的融合受第四范式影响显著。

在第四范式驱动之下,DMP与FAIR原则的融合根植于数据管理的土壤。科研数据管理与共享工作的核心构成分别是数据生命周期(Data Life Cycle,DLC)和利益相关者(Stakeholder,SH)。前者为从产生数据开始,经过数据的收集、加工、分析、存储、访问和共享,最终实现数据再利用的循环过程[23];后者系指支持某组织生存必不可少的群体[24]。DMP与FAIR原则融合的目标应当是优化数据生命周期流程、明晰利益相关者权责分工,如DMP的核心组件覆盖管理、共享和利用阶段[17],与数据密集型科学的3项基本活动内容一致;FAIR原则形成从发现、访问、互操作到重用的科学数据融合体系,系统架构包括面向融合的数据管理制度与标准[15],充分体现出数据生命周期特性。调研发现,融入FAIR原则的、与DMP关联的核心利益相关者包括但不限于:政府机构、科研组织、资助机构、科研教育机构、图书馆、评审员和科研人员等,分别在不同业务流程中负有相应权责。

2.3 现实需求赋能,服务于复合数据场域

DMP在发挥专业效益、经济效益和制度效益的同时,其潜在的压力也引发了资助机构、科研人员等主体一定程度的不满,其完整性、准确性和有用性也深受质疑[3-4]。为此,全球范围内提出了maDMP、DMP评估等解决路径,皆能通过科学适配FAIR原则来提升DMP的效能。受优化DMP功能与效率的现实需求赋能,DMP与FAIR原则的融合成为必要,两者融合服务的数据场域也渐趋复合多元。如图1(c)、图1(e)所示,DMP与FAIR原则融合的实践场域主要为服务各类科研创新计划与项目,如Horizon 2020、开放科研数据先导(ORDPilot)等科研创新计划,欧盟CarE-Service、CS-SDG和TREALClean Sky 2等科研创新项目,其有效实施还依靠欧洲开放科学云(EOSC)、开放获取基础设施(OpenAIRE)、环境科研基础设施(ENVRI)等用于管理科研数据的开放、可信赖的环境。DMP与FAIR原则融合的应用领域主要为各学科群体和关键核心技术领域,如服务公众科学(Citizen Science)、人文社会科学(Social Sciences and Humanities)和植物表型组学(Plant Phenomics)等学科群体,服务纳米技术(Nanotechnology)、纳米安全(Nanosafety)和植物表型(Plant Phenotyping)等关键核心技术领域的发展。现实需求往往决定了发展和应用的方向,DMP与FAIR原则融合的实践场域和应用领域整体上受以“开放获取、开放数据和开放科学”为特征的基础环境影响。

3 DMP与FAIR原则融合的两个维度

要使DMP科学运行,必须保障其科学质量和技术质量。科学质量关乎DMP编制的完整性和充分性,即涉及数据全生命周期且业务流程规范有序,关联多元利益相关者且权责明晰,目的是使DMP描述科学合理、要素齐全;技术质量控制的重点在于实现DMP的可操作性、描述准确性,一般通过DMP软件和工具来规范流程、提高效能。围绕控制科学质量与技术质量两点目标,DMP与FAIR原则的融合形成了两个维度。

3.1 以“整合DLC-SH”为外引

“外引”即外显引导,指外在的显性推进策略。在DMP与FAIR原则融合过程中,外引的实现方式以提升DMP科学质量为基本导向,以整合数据生命周期和利益相关者(简称“整合DLCSH”)为核心特征。如表1所示,笔者依据前期研究结果[17]和本文对实践样例的分析,归纳了融入FAIR原则的DMP的类别和主要组件。对DMP编制和实施具有直接作用的主要为模板类和工具类资源,这两类资源中98.81%以上皆在主要内容中融入FAIR原则。其核心结构主要按数据生命周期流程组织,也重视对利益相关者角色定位和职责的描述,进一步验证了图1的主要内容。

表1 外引维度的DMP与FAIR原则融合情况

在84条模板类和工具类DMP样本中,有68条的大纲严格依据FAIR原则的子原则组织,这种方式已成为主要趋势;同样有68条DMP样本遵循欧盟的《FAIR指南》,这一指南颁行得较早,实践成果颇丰。此外,已有3条DMP样本严格依据《国际指南》规范的格式编制,该指南的第一版颁行于2019年,并于2021年更新了扩展版。如表2所示,相较于《FAIR指南》,《国际指南》设计了将FAIR原则融入DMP指标的具体做法,其DMP核心要求(Core Requirements for DMPs,CR)严格按“整合DLC-SH”的模式组织,实现了与FAIR原则的良好兼容,并提供了评估指南[20];相关实践虽处于起步阶段,但已被SE的8个成员机构采纳[25],全球实践亦正在持续增多,已成为重要的参考典范。

表2 CR与FAIR原则的兼容性[5,20]

3.2 以“机器可操作”为内驱

“内驱”即内隐驱动,指内在的隐性变革动力。在DMP与FAIR原则融合的过程中,其内驱的实现方式以提升DMP的技术质量为基本导向,以机器可操作为核心特征;同时,以FAIR化(元)数据及发挥其科学、经济和社会价值为根本目的。maDMP有时亦被称为“动态”或“机器可读”的DMP[26],它主要依托技术工具来实现DMP的编写。调查发现,共计有10条DMP样本在关键词中明确标注其满足机器可操作性;样本中提及的辅助性技术工具与Jones等[10]介绍的全球十大典型DMP工具基本一致。笔者据此梳理其与FAIR原则融合的情况,如表3所示。融入FAIR原则的DMP技术工具总体上具备两种功能导向:一是采纳FAIR原则实现DMP本身的机器可操作,如使用Argos、Data Steward Wizard(DSW)和RDMO等技术工具,推动DMP的智能化编制、可操作和公开;二是依托DMP技术工具实现(元)数据的FAIR化,如皮斯托亚联盟的FAIR工具包(FAIR Toolkit)提供了支持FAIR化(元)数据生命周期的关键工具[27]。此外,在推动DMP本身支持FAIR原则的基础上进一步实现FAIR化(元)数据是一大趋势,诸如DSW等技术工具开发了自动评估的指标和软件,设置了可发现性、可访问性、可重用性、良好DMP实践和开放性等5个指标项[14]。值得指出的是,目前DMP和FAIR原则在技术工具内部的紧密集成还没有到位,至少没有达到适当的采用和成熟度水平[10]。例如,在使用DMPonline和DMPTool编写的近4万余个DMP中,很少涉及能够帮助人、机器或机构了解其所描述的研究和数据的方式[28]。面向未来,除了使DMP本身融入FAIR原则并实现机器可操作外,还需持续优化DMP的组件和功能,使其为实现(元)数据的FAIR化奠基。

表3 支持FAIR原则的DMP技术工具概览

3.3 两个维度的特性及其有机统一

(1)两个维度的特性。实践充分表明,FAIR原则在融入DMP的过程中形成了“以‘整合DLC-SH’为外引”(维度1)和“以‘机器可操作’为内驱”(维度2)的两个维度,且其分别具备以下特性。

一是分别以人和以机器为中心。虽然采纳FAIR原则来优化DMP的主要目的是缓解科研人员编制DMP的压力并提高其科学质量与技术质量,更多地关注人的需求,但是,维度1的实现要以“人”为中心,维度2的实现要以“机器”为中心。采用维度1的方式编制DMP,需要科研人员参照行业元数据标准、DMP模板以及DMP评估准则等,手动完成相关工作;采用维度2的方式编制DMP,科研人员需要了解要素齐全的DMP结构并依据领域规范著录内容,更多的工作将交给机器完成。

二是分别以DMP模板和技术工具为产品。从最终的产品形态来看,维度1致力于打造以DMP模板为生态的支持体系,FAIR原则的融入主要优化了DMP的内容结构;维度2致力于供给以技术工具为依托的服务体系,FAIR原则的融入不仅完善了DMP的内容结构,也提升了DMP本身可操作和公开的能力。现阶段,FAIR原则已有效地融入到了DMP模板编制中,且其与DMP技术工具的融合已初见端倪。

(2)两个维度的有机统一。维度1下“整合DLC-SH”视角的组件可以很好地集成到维度2的软件和技术工具研发应用中,并能在实现机器可操作的过程中有效地融入FAIR原则。从驱动力、工作重心和最终目标来看,DMP与FAIR原则融合的两个维度殊途同归,两者的有机统一将成为未来的主要发展方向。

一是皆以提高DMP效能为驱动力。采用维度1的思路编制DMP,在科学融合FAIR原则后可高度简化DMP的组件,提升DMP的结构清晰度;采用维度2的思路编制DMP,能实现基于FAIR原则的DMP内容自动组装。二者皆可有效提高编制和实施DMP的效率与质量,在一定程度上减轻科研人员的压力。

二是皆以嵌入业务流程为工作重心。DMP主要通过对数据生命周期的规划与管理来序化和规范数据收集、组织与描述、存储与备份、共享与重用、权限与安全等业务流程,而FAIR原则能够等效或选择性融入各个业务流程。如图3所示,维度1与维度2的统一主要表现在嵌入业务流程上。随着FAIR原则的应用逐步加深、科研数据管理与共享工作的业务流程进一步优化,将FAIR原则等效融入更广泛的数据生命周期中将是未来的工作重心。

图3 FAIR原则嵌入DMP规范的业务流程示意图

三是皆以FAIR化(元)数据为最终目标。无论是维度1(侧重FAIR化数据生命周期和利益相关者,以优化科研数据管理与共享工作的业务流程和组织管理),还是维度2(偏重采用FAIR化DMP本身的路径来构建maDMP),其最终目标皆为实现对(元)数据的FAIR化。DMP中要求提供的附加信息以及施加于数据之上的操作,共同促进数据可发现、可访问、可互操作及可重用的深度融合[15],融入FAIR原则的DMP可以从起点处重构科研数据管理与共享工作的生态,在实现FAIR化(元)数据的目标上拥有天然优势。

4 启示

国内关于DMP内容要素的探索几乎为零[29]。国务院办公厅颁行的《办法》中并未将DMP提升到宏观规划和政策设计高度加以推进,且仅部分支持FAIR原则[16];中国科学院发布的《中国科学院科学数据管理与开放共享办法(试行)》提出将科技项目数据管理计划作为项目立项的必要条件,列入项目评审内容,但仅明确了DMP的部分关键要素。我国对FAIR原则的引入也处于理论探讨阶段,中欧合作的创新绿色智慧城市SiEUGreen项目在2020年颁行了《SiEUGreen-可交付成果7.2数据管理和RRI计划》[30](SiEUGreen-Deliverable 7.2 Data Management and RRI Plan,样本S95),标志着我国开始关注DMP与FAIR原则的融合发展。但从全局看,国内DMP与FAIR原则融合的实践仍然较为落后,有待适当借鉴国际经验,科学调整国内的政策布局和服务体系。

4.1 科学设计DMP制度,适度引入FAIR原则

后发者如果能够提前识别制度设计缺陷并做出前瞻性布局,通过创新或能形成更大的优势,存在弯道超车的可能性。国际经验表明,DMP制度对于优化科研数据管理体系起着先导作用,有其存在的重大意义和价值。实现FAIR化DMP或(元)数据这一目标的前提条件是科学设计DMP制度,并适度引入FAIR原则。

结合现阶段我国“以数据生命周期为经、以责任相关者为纬”的科学数据管理体系[31],应通过引入FAIR原则来革新DMP规范的业务流程并完善其制度体系。在法规建设上,建议将DMP作为强制性政策纳入国家科技体制安排,可在后续过程中修改《办法》第十三条为“政府预算资金资助的各级科技计划(专项、基金等)项目,应提交要素齐全的数据管理计划;所形成的科学数据,应由项目牵头单位汇交到相关科学数据中心”,并适当调整其他条款。在制度保障上,可参照本文68条严格依据FAIR原则的子原则组织DMP结构的样本所提供的通行DMP参考框架,为资助机构、科研教育机构和科研人员等利益相关者编(研)制DMP及其技术工具。在实现机制上,构建宏观、中观和微观层面的政策制度体系:宏观上由国务院科学技术行政部门牵头,制定融入FAIR原则的DMP政策和标准规范;中观上由国务院、省级人民政府相关主管部门编制相关政策和规章制度;微观上由科研院所、高等院校和企业等法人单位建立健全相关管理制度。其重点是由国家科研资助体系(包括横向或纵向)内的资助机构牵头,构建详细的融入FAIR原则的DMP实施指南,鼓励各类重大专项、各学科依据领域标准完善DMP的结构和内容要素。

4.2 统一DMP标准规范,打造人机协同生态

国际上,DMP最早是为了满足部分科研项目发展的需要,而后逐步扩展到各个领域,最后成为政府和资助机构的强制性政策要求。其演化为一项基础性政策经历了较为曲折漫长的过程,与FAIR原则的融合至今已有5年多。DMP初创期不可避免地会面临标准规范匮乏的困境,发展期又会出现标准规范繁杂的问题,直接表现是编制的DMP或过于简略或过于复杂,乃至出现各种DMP模板类、工具类资源林立的现象。如果缺乏统一规划,不利于进一步打造人机协同的生态。为此,可从两个方面进行优化。

一是遵循简易性原则,方便“人”的可操作。DMP不应该成为科研人员的压力和负担,而应成为协助其有效开展科研数据管理与共享工作的助推器。FAIR原则的融入就是为了解决DMP过于复杂的问题,如本文调研样本中有80.95%(68/84)的DMP严格按照FAIR原则组织大纲及内容。相较于过去以“整合DLC-SH”为视角构建DMP,融合后核心组件简化为4项,且形成了从低到高包含4个层次的融合体系,能保证DMP要素齐全且科学质量与技术质量均达标。因此,我国应采取自下而上的原则采纳、协调统一的合作推进、在已有成果和经验基础上推动原则实施和由内而外推动国际合作[32]等方式推进FAIR原则,重点放在以FAIR原则为基础构建国家资助体系、各学科与各领域内通用的DMP标准规范,指导编(研)制相适配的通用模板和技术工具。以FAIR原则为基础的DMP标准规范需注意保持结构的简单稳定,并关联数据全生命周期与多元利益相关者的要求。

二是遵循智能化原则,推动“机器”的可操作。引入FAIR原则的DMP,本质上是通过底层技术的智能化来推动DMP的机器可操作;并在此基础上,进一步实现(元)数据的FAIR化,推动构建全球“数据互联网”。为此,当强化数据及DMP的标准化工作,完善数据基础设施,加快国际化进程。通过构建融“数据、技术、人员和规则”于一体的科研数据服务体系[33],提升科研数据管理与共享工作的智能化水平。其中,促进DMP智能化、机器可操作的规则不仅包括FAIR化的DMP标准,也涉及对更深层次FAIR数据遵循度指标以及DMP与FAIR原则的适配指标等方面的完善。

简易性和智能化是FAIR原则融入并优化DMP过程而体现出的核心特性,同样适用于形成统一的DMP标准规范。具体而言,DMP标准规范的制定建议统一采纳FAIR原则为结构要素,并将“整合DLC-SH”维度的主要组件有效融入其中;maDMP也应采纳这种思路形成统一标准规范,便于后期对DMP的效能进行评估,并为数据质量验证提供统一、客观、权威的依据。通过DMP标准规范的约束性和促进性作用,能方便“人”和“机器”的可操作,有望从数据底层实现FAIR化,为打造人机协同的科研数据管理与共享生态赋能。

4.3 发挥DMP指引作用,优化组织管理及业务流程

实践充分证明,融入FAIR原则的DMP能优化科研数据管理与共享工作的组织管理与业务流程,其在这一过程中起着“保障、平衡、引领”作用。故而,需充分挖掘融入FAIR原则且实现“以‘整合DLC-SH’为外引”和“以‘机器可操作’为内驱”两个维度有机统一的DMP功用。

首先,采用融入FAIR原则的DMP保障数据驱动的科学发现。DMP与FAIR原则融合的两个维度以提高DMP效能为驱动力,并以FAIR化(元)数据为最终目标,能为数据驱动的科学发现提供坚实的保障。发挥DMP的保障作用,需重视两个维度的有机统一,推动(元)数据及DMP本身的机器可操作与FAIR化。在我国DMP制度设计与服务体系缺位的情况下,构建融入FAIR原则的maDMP是一大突破点。

其次,采用融入FAIR原则的DMP平衡组织管理体系。DMP指向的数据生命周期和利益相关者两条主线,实质上反映了科研数据管理与共享工作的两个维度:业务流程和组织管理[16]。从组织管理维度看,我国《办法》提出“分级管理,分工负责”管理体制,与国际科研数据政策导向基本一致,也符合DMP与FAIR原则融合的特征。在此基础上,可通过DMP机制来重塑国家科技计划和科研资助体系下的数据管理体系,促使政府部门、资助机构、科研教育机构等主体进一步完善科研数据管理与共享工作的管理体制机制;鼓励科研人员编制要素齐全的DMP,以此为据提升科研数据管理与共享工作的质量。

最后,采用融入FAIR原则的DMP引领业务流程优化。在融入FAIR原则后,DMP的业务流程将转换为遵循“可发现→可访问→可互操作→可重用”的主线,并科学适配数据生命周期理论。我国可采取将FAIR原则等效融入数据生命周期的策略,积极厘清FAIR原则与数据全生命周期管理的对应路径,并以FAIR原则的子原则为主要组件构建DMP,据此引领科研数据管理与共享工作的业务流程优化。

4.4 构建DMP评估机制,推动全生命周期良性循环

受科研人员的精力、能力等因素所限,DMP编制难免存在要素缺失、描述粗略与信息失真等质量问题。因此,DMP评估工作成为下一阶段的实践转向,有利于推动数据全生命周期管理的良性循环。本文的分析和相关研究[4,10]表明,FAIR原则能有效提升DMP的效能;而且,FAIR原则已被证明与DMP及其评估工作有着良好的兼容性,如《国际指南》中的CR及其评估准则的指标与FAIR原则关联度较高[20]。因此,如何构建融入FAIR原则的DMP评估机制将是一个非常关键的问题。

首先,营造融入FAIR原则的DMP评估配套环境。应在政策和制度设计上重视DMP评估,通过政策指引、激励措施等促使DMP及其评估制度成为国家科技工作机制之一;需编(研)制适配FAIR原则的DMP评估标准规范和技术工具,可参考国际上SE、DCC等组织发布的较为成熟的DMP评估准则,引进Argos DMP、DSW和Roadmap等maDMP工具,或自主编(研)制能满足数据驱动型科学发现的DMP评估标准、规范和技术工具。在上述基础上,进一步优化相应的人才队伍配置,完善服务体系。

其次,确保DMP评估工作与FAIR原则的科学融合。为了科学适配DMP,建议采纳FAIR原则的子原则作为构建DMP及其评估通用标准与工具资源的主要框架和组件,按照“宜融则融”原则,打造DMP评估工作的新生态。其中,F子原则(可发现)对应数据组织与描述、存储与备份、共享与重用等组件,A子原则(可访问)对应数据存储与备份、共享与重用、权限与安全等组件,I子原则(可互操作)对应数据收集、组织与描述、共享与重用等组件,R子原则(可重用)对应数据收集、组织与描述、共享与重用、权限与安全等组件;也要兼顾各利益相关者的权责划分。

最后,形成围绕“科学质量和技术质量”评估模式。在开展DMP质量评估时,应充分分析DMP描述的完整性、充分性等科学质量评估要素,应充分考察DMP的可操作性、准确性等技术质量评估要素。为此,需打造多级评估流程,构建智能评审与同行评议相结合的DMP评估机制。建议形成研究与资助机构、科研教育机构和图情机构3个主体分工合作的DMP评估机制,借助智能化审查工具、同行评议体系构建“初评-复评-终评”的机制;以FAIR原则为基础,开发适配“性能等级”“评分卡”的DMP评估量表和工具资源,实现定量与定性评估相统一。

5 结语

国际上,DMP制度对科研数据管理与共享工作的发展起到了引领作用,也在一定程度上也加大了科研人员等主体的行政和时间压力,DMP的实践应用呈现出一定的“疲态”。为此,欧美探索了引入FAIR原则和构建DMP评估机制等路径,为优化DMP功能提供了前置和后置保障。FAIR原则的融入,对提高DMP的效能、实现FAIR化(元)数据的最终目标有着积极意义。通过系统梳理全球DMP与FAIR原则融合的实践,发现其形成了“以‘整合DLC-SH’为外引”和“以‘机器可操作’为内驱”的两个维度;而推动两个维度的有机统一,可最大化发挥科研数据的科学、经济和社会价值。本研究深入解析了DMP与FAIR原则融合的实践规律和维度特征,初步凝练了两者相融合的两个维度之间的理论逻辑,对我国优化科研数据管理与共享工作的政策设计和服务体系有一定的参考价值。

在下一步工作中,笔者拟对我国推进DMP与FAIR原则融合的制度和实践环境进行细致的扫描,并深入剖析两者相融合的微观机理和实现机制。可以肯定的是,当前我国的DMP实践应用仍处于起步阶段,在政策法规、管理体制、共享机制、服务体系等方面,都有紧迫的现实需求和很大的发展空间。因此,通过科学适配融入FAIR原则的DMP制度来破解政策设计和实践体系的缺位与不完善之处,应是正当其时。

注释

①科学数据标识符注册中心DataCite有1,300多个数据中心,涵盖全球主要的开放科学数据仓储;关联10万余个研究组织,注册的DOI数量达到1,300万余个,收录的作品(出版物、数据集和软件等)超3,600万余件;它还遵循FAIR原则对元数据进行了科学组织。因此,以其作为数据源具有一定的代表性和可行性。

猜你喜欢

数据管理维度原则
企业级BOM数据管理概要
理解“第三次理论飞跃”的三个维度
十二星座的做事原则
定制化汽车制造的数据管理分析
航发叶片工艺文件数据管理技术研究
认识党性的五个重要维度
党支部的工作原则是什么?
浅论诗中“史”识的四个维度
数据挖掘在学生成绩数据管理中的应用研究
数据挖掘在学生成绩数据管理中的应用研究