APP下载

科学数据引用国家标准研制与推广

2018-03-17朱艳华胡良霖孔丽华高瑜蔚陈希

数据与计算发展前沿 2018年6期
关键词:标识符中国科学院解析

朱艳华,胡良霖,孔丽华,高瑜蔚,陈希

中国科学院计算机网络信息中心

1 标准研制背景

数据尤其是科学数据具有可以反复使用、不断增值的特点,其中蕴藏着巨大的价值和潜力,是与自然资源、人力资源一样重要的战略资源。通过长期观测或工作积累而获得的科学数据,具有极高的科研价值,为相关领域的科研工作提供重要参考和支持,是国家科技创新和发展的基础性资源,它与公开发表的科技文献一样具有引用和参考价值。

尽管科研领域意识到科学数据引用的必要性和重要性,但科研工作者对科学数据的引用方式差别较大。国际上一些大型的组织机构和科研项目对该课题进行了积极探索并取得了一些初步成果[1–6]。众多致力于数据引用的国际组织和数据中心,如德国科学基金会(German Research Foundation,DFG)、英国数字监管中心(Digital Curation Centre,DCC)、哈佛大学社会科学研究所等先后启动数据引用项目,发布了专门针对科学数据的引用规范指南文件和要求。如DFG资助的STD-DOI 项目提出数据引用包括Creator(s)、Publication year、Dataset name、Publisher、Persistent identifier等基本元素。DCC 建议的引用元素包括:Author、Publication data、Title、Edition、Version、Feature name and URI、Resource type、Publisher、Unique numeric fingerprint(UNF)、Identifier、Location(a persistent URL),其中,the author, the title and date,the location, and the publisher 是必选元素。哈佛大学社会科学研究所项目 Dataverse Network 规定,数据引用基本格式包括6个必须元素 Author、Date、Title、Unique global identifier、Universal Numeric Fingerprint(UNF)、Bridge service和一个可选元素Value[fieldname]。地球和环境科学数据出版信息系统 PANGAEA 规定数据引用元素包括Author(s)、Year of publication、Title、Source institution、DOI等基本元素。国际数据仓储库 Dryad 支撑发表论文的数据引用元素包括Creator、Publication Year、Data from: Title、Dryad Digital Repository、Identifier等基本元素。

同国外相比,国内在数据引用方面的研究相对落后,没有形成统一的格式,引用内容相对宽泛,还不能很好地反映数据本身的特征。如,中国科学院计算机网络信息中心地理空间数据云要求使用者在使用本数据时,所产生研究成果注明“数据来源于中国科学院计算机网络信息中心 地理空间数据云(http://www.gscloud.cn)”。寒区旱区科学数据中心要求用户在使用全部或部分 “寒区旱区科学数据中心”所提供的数据的基础上产出的研究成果中(包括公开发表的论文、论著、数据产品和未公开发表的研究报告、数据产品、系统开发等),须在相关成果的显著位置上明确注明数据来源;除对数据来源署名有特殊要求以外,用户须依据以下规范注明数据来源(1)中文成果:数据来源于“寒区旱区科学数据中心(http://westdc.westgis.ac.cn)。(2)英文成果:This data set is provided by Cold and Arid Regions Science Data Center at Lanzhou(http://westdc.westgis.ac.cn)。

在此背景下,2014年9月26日,全国信息技术标准化技术委员会发布综合 [2014]67号文“2014年第一批国家标准制修订计划的通知”,其中,《信息技术科学数据引用》(以下简称《科学数据引用》)作为一个标准,获批立项。该标准的目标是通过借鉴国内外现有的科研成果,针对国内科学数据管理特点,提出科学数据引用规范,推动科学数据规范化引用和共享。

2 标准研制过程

《科学数据引用》作为自主制定标准,由全国信息技术标准化技术委员会(SAC/TC28)提出并归口;主要起草单位包括中国科学院计算机网络信息中心、中国电子技术标准化研究院、北京科技大学、中国科学院地理科学与资源研究所、北龙泽达(北京)数据科技有限公司、北京航空航天大学、成都勤智数码科技股份有限公司。

《科学数据引用》研制工作启动以来,工作组通过文献调研、项目组讨论和专家研讨等方式开展工作。在文献调研部分,工作组调研了4家国际组织、16家国内外科研机构和9 所高校科学数据引用研究进展,内容涉及科学数据引用元素、引用格式、引用粒度和引用版本等核心问题。随着工作的深入开展,工作组内部进行了多次讨论,充分征求各参与单位的意见和建议;组织中国科学院计算机网络信息中心、中国科学技术信息研究所等领域专家进行专题研讨;同时参与全国信标委大数据标准工作组国家标准草案征求意见会等讨论会。

2016年4月14日,标准工作组参加并通过了标准的内审会,10月9日至11月9日在全国信息技术标准化网上公开征求意见,并根据收集到的意见,完成标准送审稿。11月17日,全国信息技术标准化技术委员会秘书处在北京组织召开该标准审查会。审查专家组同意该标准送审稿通过审查,并建议标准编制组按审查专家意见修改完善,尽快形成报批稿上报。同年11月底,结合标准审查会审查意见,经过修改,形成了报批稿。2017年12月29日,国家标准化管理委员会公布《中华人民共和国国家标准公告(2017年第32号)》[7],《科学数据引用》(标准号为GB/T35294-2017)正式发布,自2018年7月1日起正式实施。

3 标准主要内容

《科学数据引用》标准研制工作组基于大量的文献调研,参考国内外现有的科学数据引用元素,并考虑到科学数据生产、发布传播、访问获取等诸多因素。最终,标准规定了科学数据引用元素描述方法、引用元素详细说明、引用格式等方面的内容,适用于科学数据传播机构和数据使用者等。其中,科学数据传播机构可根据本标准设计数据引用系统,并声明数据引用规则;数据使用者可根据本标准著录科学数据引用信息,规范数据引用行为。

本标准提出科学数据引用元素共有9个:作者、名称、创建机构、创建时间、传播机构、传播时间、唯一标识符、解析地址、版本。其中,创建机构定义为创建该科学数据的机构名称,传播机构定义为科学数据传播分发机构,考虑到两个字段都是单位名称,用户可能会混淆,特意在引用格式里增加了[传播机构]和[创建机构]作为限定词。

本标准规定科学数据通用引用格式为:作者.名称(版本)。创建机构 [创建机构],创建时间。传播机构 [传播机构],传播日期。唯一标识符;解析地址。

示例:

中国科学院华南植物园.中国热带亚热带植物学基础数据库(V2)。中国科学院华南植物园[创建机构],2004.中国科学院计算机网络信息中心[传播机构],2014-12-03.csdb:cn.csdb.tbotany.www;

http://citation.csdb.cn/csdb:cn.csdb.tbotany.www.

其中,“中国科学院华南植物园”是作者,“中国热带亚热带植物学基础数据库”是名称,“V2”是版本号,“中国科学院华南植物园”是创建机构,“2004”是创建时间,“中国科学院计算机网络信息中心”是传播机构,“2014-12-03”是传播日期,“csdb:cn.csdb.tbotany.www”是唯一标识符,

“http://citation.csdb.cn/csdb:cn.csdb.tbotany.www”是解析地址。

4 科学数据标识

4.1 标识符通用要求

科学数据引用的核心问题是数据标识符的选取和解析。《科学数据引用》建议唯一标识符应能够满足以下通用要求:

·无歧义地标识一条数据;

·具有唯一性;

·分层的架构体系,标识机制灵活、可扩展;

·具备解析系统的支持,该系统通过解析唯一标识符定位到所标识的数据资源;

·应具备自主可控的解析技术,能够实现我国信息资源的自我管理;

·建议唯一标识符首先解析到数据的元数据,而不是直接解析到数据实体。元数据中包括该条数据的描述信息以及访问数据实体的链接地址,方便用户判断数据价值继而再进一步访问数据。

4.2 三类典型的数据标识符

选取科学数据标识符存在诸多困难。首先,数据类型复杂,格式众多。其次,数据标识粒度难以采用统一的标准。如地学数据量庞大,数据维度多样且内涵丰富,标识一些数据聚类形成的数据集对大部分研究者来说就能满足其需求,而一些数值型数据,每一条都具有标识和引用价值,因此需要标引到数据记录。

数据标识在不同领域和应用中采用不同的方式,目前在科学数据通用领域,常用的标识符如科技资源标识(China Science and Technology Resource,CSTR)[8]、对象标识符(Object Identifier, OID)[9]、数字化对象识别符(Digital Object Identifier,DOI)[10]等。其中,科技资源标识是由国家科技基础条件平台中心为主研制的国家标准(标准号为GB/T32843-2016)。该标识符由中国科技资源代号(CSTR)、科技资源标识注册机构代码、科技资源类型代码和内部标识符4部分组成。中国科技资源代号与科技资源标识注册机构代码之间用半角符号“;”隔开,其余各部分之间用半角符号“.”进行分割。对象标识符OID 是由国际标准化组织/国际电工委员会、国际电信联盟共同提出的标识机制,用于对任何类型的对象、概念或者“事物”进行全球无歧义、唯一命名。OID 编码结构为树状结构,不同层次之间用“.”分隔,层数无限制。数字化对象识别符DOI 由国际数字对象识别号基金会负责,包括前缀和后缀两个部分,中间用“/”分割。前缀部分由基金会确定,以“10.”开头,以区别于其他使用Handle系统的标识符应用;后缀部分由资源发布者自行指定,用于区分一个单独的数字资料,具有唯一性。

4.3 国家物联网标识管理公共服务平台

解析机制是唯一标识符访问的一个重要组成部分,也是实现标识符可操作性和互操作性的基础。唯一标识符的表达方式多种多样,为解析系统开发和利用带来挑战。目前,国内标识符注册解析管理系统——“国家物联网标识管理公共服务平台”是国家发改委于2013年5月正式批复,由中国科学院计算机网络信息中心牵头,联合工信部电子科学技术情报研究所、工信部电信研究院、中国物品编码中心三家单位共同建立物联网统一标识管理和公共服务平台。

国家物联网标识管理公共服务平台向所有行业开放,积极实现行业数据对接合作,最终构建物联网标识一物一码、互联互通全流程可追溯的标识码解决方案。目前该平台已经实现 HANDLE、ECODE、CSTR、OID、DOI、NIOT等多个标识系统的注册和解析[11]。

5 标准应用推广

2017年12月,《科学数据引用》国家标准正式发布以后,中国科学院计算机网络信息中心作为该标准的第一完成单位,积极推动标准的应用和推广。目前,科学数据发布大致可以分为三种形式:一是通过类似学术论文的形式,经过同行评议后正式出版,即所谓的数据论文;二是利用专门的数据发布平台进行存储和服务,如figshare、PANGAEA、Dryad等国际上知名的数据存储库;三是某些学科领域(如生物信息学)的传统期刊在发布论文时,要求作者同时提交与该篇论文相关的数据,并存储到指定的数据平台。目前,针对科学数据发布的三种形式,中国科学院分别推出《中国科学数据》[12]、科学数据存储库(Science Data Bank,ScienceDB)[13]、中国科学院期刊在线采编发云服务平台都在积极采用《科学数据引用》国家标准的相关规定。

此外,《科学数据引用》国家标准还应用到了数据库建设与服务项目中,如国家科技基础条件平台基础科学数据共享网通过数据引用解析系统自动生成了项目内近 200个数据(集)的引用信息。在数据检索页面,每一条检索结果同时提供了该数据的引用信息,用户可以直接将这段引用信息复制下来,放到参考文献中,方便其对该数据的引用标注。同时,在基础科学数据共享网门户网站也提供了数据引用标识解析服务,用户输入有效的唯一标识符,即可解析到数据访问页面或该数据的元数据描述页面。

6 结束语

《科学数据引用》国家标准的正式发布,标志着科学数据可以像学术论文一样被引用和参考,在一定程度上推动数据共享和数据服务,同时也可以增强科学数据知识产权保护的意识。2018年3月17日,国务院办公厅正式发布了《科学数据管理办法》,为中国科学数据的工作确定了行动纲领。管理办法明确提出“科学数据使用者应遵守知识产权相关规定,在论文发表、专利申请、专著出版等工作中注明所使用和参考引用的科学数据。”同时,科技部和财政部配合《科学数据管理办法》的发布,今年年初已经印发了《国家科技资源共享服务平台管理办法》。平台管理办法也要求“用户使用国家平台科技资源形成的著作、论文等发表时,应明确标注科技资源标识和利用科技资源的情况,并应事先约定知识产权归属或比例。”可以说,这两个管理办法的发布,为科学数据引用规范的应用和推广提供了政策上的支持和保障,倡导和培养引用科学数据的良好习惯。当然,标准在实施推广的过程中,还将根据实际使用情况,不断地进行完善和修订。

猜你喜欢

标识符中国科学院解析
“我是一个平凡的人”——中国科学院院士王方定的长寿经
基于底层虚拟机的标识符混淆方法
中国科学院院士
——李振声
三角函数解析式中ω的几种求法
基于区块链的持久标识符系统①
祝贺戴永久编委当选中国科学院院
睡梦解析仪
电竞初解析
对称巧用解析妙解
《中国科学院院刊》创刊30周年