APP下载

国内外科学数据管理与开放共享的最新进展

2018-08-31张丽丽温亮明郑晓欢黎建辉

中国科学院院刊 2018年8期
关键词:数据管理政策科学

张丽丽 温亮明 石 蕾 郑晓欢 黎建辉*

1 中国科学院计算机网络信息中心 北京 100190 2 科技部国家科技基础条件平台中心 北京 100062 3 中国科学院 办公厅 北京 100864

1 研究概述

无论科研领域、无论利益群体,科学数据的有效管理与开放共享使科研工作、广泛社会公众与个体普遍受益:推动科学进步,减少重复劳动并收获更多生产力,打造高效的科学政策边界[1];推进科研与教育长期进步[2];为社会问题带来新的解决方案[3];缩短新产品孵化周期、满足大众信息诉求等。然而复杂的科研场景中,数据无法按照知识共同体(knowledge commons)[4]来看待和管理,数据的有效流动需要更多激励措施与质量控制、更复杂的博弈策略选择与平衡。更好地把握国内外科学数据管理与共享趋势,有利于我们识别和分析问题,对比和反思现状,以便对未来形成合理预期与研判。通过大量调研,笔者将科学数据管理与共享相关主题内容进行了整理(表 1)。

表 1 科学数据管理与共享相关主题

2 国内外发展趋势研判

2.1 积极温和的科学数据政策导向

开放数据 FAIR 化提供宏观原则,数据管理计划(DMP)坚持务实操作,全方位政策体系日渐丰满,重塑科学数据开放边界从未停歇。这些积极的发展态势并非自上而下、“一刀切”的行政命令,而是与自下而上的一线科学数据生产相呼应,尤其通过技术应用、培训教育、公民科学发展与影响力全面计量等举措全面夯实。积极开放是大势所趋,温和推进则是现实所需。

2.1.1 “全面开放”FAIR化

2000 年以后,以经济合作与发展组织(OECD)、地球观测组织(GEO)、国际科技数据委员会(CODATA)等为代表的一系列国际组织推行“全面开放”(full and open)的科学数据共享政策,旨在推动科学数据资源尽可能免费、无限制性地跨界流动重用。2014 年,荷兰莱顿一场由多利益相关群体参与的名为“联合共建数据公平港口”的学术研讨会[13]提出“可发现(findable)、可访问(accessible)、可互操作(interoperable)和可重用(reusable)”的 FAIR 原则,进一步诠释现代科学数据共享的基本理念并迅速流行。FAIR 原则将科学数据资源依开放状态分为 6 类,其中“FAIR 化的元数据”“FAIR 化有限开放数据”“FAIR化开放数据”和“FFAIR 化增强版开放数据”等 4 类被认为是开放数据的主要形式。该原则在欧盟[14]、美国、澳大利亚等地普及。FAIR 化数据资产的计量研究和以“Go change,Go build,Go train”为主题的 FAIR 运动,进一步使该原则落地。

2.1.2 动态生长的科学数据开放边界

科学数据共享的深度和广度也即开放的边界。英国皇家学会研究报告《科学是一项开放的事业》[15]中明确指出,科学开放边界的制约因素包括经济利益(如数据所有权与知识产权等)、隐私权力、公共安全等。历经 4 年准备,欧盟《通用数据保护法案》(GDPR)[16]于 2016 年 4月14日通过审批并于 2018 年 5月25日起正式施行,旨在保护数据时代的欧洲公民免于隐私数据泄露。其核心内容确立“知情权、访问权、反对权、个人数据可携权、被遗忘权”5 种公民权利,被视为近 20 年来最重要的数据隐私规章。而数据资产确权由于科研场景的复杂性,仍值得持续探讨。可以说,生长着的科学数据开放边界正是科学数据从封闭走向开放的动态博弈。边界刻画将持续成为科学数据共享的焦点和难点。

2.1.3 全方位政策体系的日渐丰满

从组织视角来开,科学数据管理与共享的政策体系全面扩展(图 1),无论是国际与国家层面,抑或区域、领域与机构层面或者更小的单元组织。其中,领域机构层面的科学数据政策更贴近科研与数据场景,因而成为推动整个政策链条延伸与丰满的重要力量。除纵向一体化的政策体系搭建外,不同层级的政策联系也日益紧密。如以数据外交为桥梁的国际政策与国家政策的接轨,领域机构政策面向国家政策的调整与校正等。

图1 科学数据管理与共享政策体系

一些组织归档了现有数据政策:美国能源部系统生物学知识库(Kbase)包括美国本土为主的生物信息学数据政策资源[17];公平共享平台FAIRsharing[18]收录面向多领域门类 112 份数据政策元数据信息。欧盟与 OECD 合作组建国际科技政策数据库 STIPCompass[19],收集并发布包括中国在内的 51 个国家的科技政策,科学数据管理政策涵盖其中。

2.2 全面细致的科学数据开放管理

2.2.1 数据管理计划:从理念到实践

1995 年,英国经济和社会研究委员会(ESRC)制定了数据管理计划(Data Management Plan,DMP),要求 ESRC 资助研究所产生的数据尽可能共享,并做好长期保存和高质量管理[20]。美国国家科学基金会(NSF)于 2011 年 1月规定项目申请需包括数据管理计划[21]。近年来,数据管理从纸面计划逐步走向实践:关注数据类型、数据或元数据格式和内容标准、获取和共享重用政策、数据归档计划等[22]。大量图书馆、科学数据中心、科研机构、政府部门、国际与区域组织等参与了数据管理计划实践的技术支持、政策解读与培训教育。

2.2.2 新兴技术应用的持续助推

新兴技术应用助推科学数据开放共享的例子不胜枚举。以下仅就区块链推动的数据共享、公民科学激发的数据生产和数据文献倡议组织(DDI)推行的人机网络互操作等方面揭示冰山一角。

(1)区块链推动的数据共享。科学大数据全生命周期的多层次演化、流水线处理等特征[23],对数据传输处理和共享提出全新挑战。区块链技术提供了解决方案:使用加密算法和共识机制保证安全[24];追溯源头并“过滤”,保障数据质量;分布式决策去除中间机构,大幅提升数据共享效率[25]。医疗数据已尝试利用区块链存储共享个人健康数据[26]。此外,分布式边缘计算将发挥更大作用,通过区块链一体化快速实现数据采集、处理和分析。

(2)公民科学激发的数据生产。作为数据采集的新源头,公民科学蓬勃发展。过去 22 年间,生态旅行者提供的近 3 万张鲸鲨图片帮助科研人员有效识别了 20 个鲸鲨聚集点[27]。公民科学的数据价值也不容小觑。例如,公民科学联盟(Citizen Science Association,CSA)现已吸纳超过 80 个国家的会员注册;而该组织所参与的 1 000 余个重要科学计划项目,已有超百万志愿者参与其中[28]。

(3)人机网络互操作。为推动人机网络的可理解性,DDI 联盟推出 DDI3.3[29],技术内容涵盖分类管理、非调查数据收集、样本和权重、问卷设计、支持 DDI 作为属性图、质量声明优化等,主要应用于社会学、行为科学、经济学和公共卫生领域数据的归档、发现与互操作技术指导。

2.2.3 数据出版与可信存储库

数据出版为科学数据开放管理提供新平台。以数据集及数据论文出版在近年流行,如 ESSD(2008年)、GigaScience(2012 年)、Nature Scientific Data(2015 年)、《中国科学数据》(2015 年)等实践。广义数据出版还包括数据存储库建设。存储库为数据集提供存储和访问平台,支持标准化的数据质量控制和完整的全生命周期管理,分为通用存储库、机构存储库、领域存储库、出版物存储库、图书馆/档案馆/博物馆以及科研项目存储库等类型[30]。可信存储库作为一种稳定可靠的数据基础设施,为包括数据出版等开放数据工作带来技术和管理资源保障。

2.2.4 繁荣的数据管理培训

数据管理培训通过实用性强的短期技能训练,指导科研实践。其中,涵盖 20 个国家节点的欧洲政府间组织ELIXIR[31]整体推进欧洲科学数据管理培训。英国的领域培训涉及 DCC(通用)、CAiRO(艺术)[32],DataTrain(考古学[33]、人类学)、DATUM(健康卫生)、DMT psych(心理学)、科研数据 MANTRA[34](地学、社会科学和临床心理学)等。CODATA 面向发展中国家科研人员连年提供数据管理技术培训。Data carpentry[35]由软件培训衍生而来,与世界多国合作开展培训推广。此外,数据科学专业学位教育也日渐兴盛。

2.2.5 影响力全面计量

(1)始于数据引用。2010 年至今,国际科技数据委员会(CODATA)数据引用与实践工作组详细讨论了“数据引用标准与规范”[36];2014 年,美国信息科学与技术协会(ASIS&T)数据访问与保存峰会重点探讨数据引用、元数据、数据重用[37];哈佛大学量化社会科学研究所(IQSS)在 2014年启动数据引用研究项目[38]。高校图书馆与非营利性组织(如 DataCite[39]、ICPSR[40])也参与到数据引用规范的制定与推介培训中。

(2)替代计量学的社会化视角。替代计量学基于大众社交媒体、传统主流媒体、学术社交媒体、网络博客、文献管理软件等网络数据来综合评价学术成果的社会影响力(包括被浏览、保存、讨论、推荐、引用等情况)[41]。

(3)数据计量更进一步。从传统文献和参考文献扩展到数据和文献、数据和数据、数据和数据集间的多重关系,更关注“数据”“学术记录”以及“学术个人”[42]。

2.3 我国的科学数据管理与开放

2.3.1 国家科学数据政策体系概览

科学数据管理伴随着科研活动从未停歇,2000 年后尤为繁荣。目前我国已形成由以政府、行业机构和领域数据中心为主体的数据政策体系(表 2)。其中,《科学数据管理办法》于 2018 年 3 月17日生效。该办法首次站在国家高度、面向多领域科学数据,提出开放为主的指导原则,具有划时代意义。

此外,典型行业部门制度建设既包括数据管理办法,也涵盖政策指南,如国家海洋局《关于规范海洋生态环境监测数据管理工作的意见》(2015 年 2 月)、交通运输部《关于推进交通运输行业数据资源开放共享的实施意见》(2016 年 9 月)等。跨部门合作共享逐步推进,如 2015 年国家林业局与国土资源部签署数据资料共享协议,建立长效共享机制。领域科学数据中心则将数据实践与数据政策并轨,值得关注。

表 2 部分国内科学数据政策汇总

2.3.2 相伴而生的科学数据开放共享实践

图 2 回顾了我国科学数据开放共享历程中的部分代表性事件,其中 2017 年 1月—2018 年 7 月国内科学数据共享主要实践见表 3。从所属机构看,既包括政府、科研机构,也囊括企业社会力量;从实践内容看,包括数据基础设施建设、大数据项目驱动的科学数据管理与开放、科学数据交流研讨、国际交流与合作等。相对于数据政策,数据实践先于政策并服务于政策,绝大部分领域数据政策根植于数据实践。科学数据管理先行,而开放共享尚在摸索,相关实践仍以交流研讨居多。虽也有开放数据示范平台,但广泛的数据共享实践仍有待开展。

3 比较思考与发展展望

3.1 与发达国家相比,我国科学数据政策与实践情况[43]

图2 我国科学数据开放共享代表性事件

表3 2017年1月—2018年7月我国科学数据开放共享部分活动

(1)从发展水平来看,《科学数据管理办法》新近颁布,贯彻落实仍需多年探索积累。基于现有的科学体系和数据资源量,数据政策宏观管理体系尚待扩展。

(2)从发展广度来看,国内的科学数据管理典型实践多集中于自然与工程科学,虽不乏社会科学数据实践典范,如国家统计数据、研究机构调查数据平台(如中国人民大学中国调查与数据中心等)等实践,但与学科科研活动规模相比,仍有很大进步空间。科学数据开放共享整体水平仍需提升,分散于研究个体手中所形成的数据黑洞仍客观存在。

(3)从发展动因来看,科学数据共享为大势所趋,但与之匹配的数据共享计量评价与激励尚不成熟。数据共享工作的动力多来自自发性或者行政约束。如何更好地将有形和无形力量结合,调动全生命周期利益相关者共同参与,关乎科研数据管理事业的未来。

3.2 未来科学数据管理与共享主流趋势

(1)积极温和的主流共享趋势仍将持续。从开放科学(open science)到开放获取(open access)再到开放数据(open data)乃至 FAIR 化实践,开放数据面向不同科研场景仍需灵活调整。例如,代表全世界 33 个国家 282 个临床研究人员的实验数据公平性调查国际委员会(ICIFTDS)组织提出,反对 14 份医学杂志关于免费共享临床试验数据的出版政策,并认为出版后 6 个月内开放数据不切实际[44]。可见,开放数据非一夜之功,而更如春雨润物,积极而温和的共享策略仍将占据主流。

(2)科学数据私权和公权博弈愈演愈烈。科学数据既应开放共享使社会公众受益,又需保护特定对象利益免于受侵。为此,科学数据确权至关重要。如何有效寻求公私权力的平衡,既需法律制度的智慧,也需信息技术扶持(如尽可能细粒度地分享数据的同时,降低对号入座的隐私侵犯风险方面的技术探索),还包括全社会的理解与参与,共享文化营建等。

(3)不容小觑的信息技术变革。信息与通信技术引领我们进入全新的数据时代并作用于科研数据资产。科学数据开放共享离不开技术支持,也对信息技术不断提出新挑战,如区块链技术的应用、公民科学的繁荣等。以开放心态迎接新技术应用,是推动开放数据管理走向成熟的新利器。

(4)科学数据管理的再认识。成熟的科学数据管理,不仅仅是和数据打交道,更涉及多方利益相关群体的参与。高效的科学数据管理活动需要科学数据管理职责细分,如机构数据资产专业细化、落实责任到人,才有可能保障数据管理达到预期。推动科学数据有效管理的基础包括但不限于机构宏观数据管理职能、数据治理机构(制度制定者与践行者)、团队文化以及成果度量评价等[45]。

4 结语

综上,通过文献调研与交流实践,总结了国内外科学数据管理与共享研究与实践的主要进展。基于国内外实践对比,从发展水平、发展广度和动因三方面出发,认为国内的科学数据管理领域实践日趋成熟,但宏观发展仍需更多积累,不同学科领域间数据管理水平仍存在显著差异,信息技术的灵活运用与科学数据管理边界的拓展将是提升科学数据管理发展的重要推动力量等。

致谢感谢国家留学基金委员会对本文第一作者在美访学研究期间的支持。

猜你喜欢

数据管理政策科学
政策
政策
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
助企政策
政策
点击科学
科学大爆炸