APP下载

国内外科学数据引用研究及实践进展

2019-01-19史雅莉

图书馆 2019年4期
关键词:规范科学研究

史雅莉 司 莉

(1.湖北大学历史文化学院 武汉 430062;2.武汉大学信息资源研究中心 武汉 430072)

随着海量数据的不断增长和科研环境的变化,数据引用在资源共享、知识传播过程中将发挥越来越重要的作用。本研究以科学数据引用为研究对象,归纳当前研究主题,以期为我国科学数据引用研究及实践发展提供经验参考。中文文献主要通过中国知网等数据库,结合百度学术等文献检索平台获取。在CNKI高级检索中,查找题名为“数据引用”且主题为“规范”的相关文献。通过在万方和维普数据库中的题名检索,百度学术、独秀等平台的主题检索补充CNKI未收录的文献。同时通过检索与本研究主题相关的重要作者的文献,加深对数据引用研究背景、研究方法等的了解。英文文献主要通过Web of Science等数据库,结合Google等学术检索平台获取。以“data citation”“scientific data citation”或“research data citation”为检索词,模糊检索包括以上字段的相关文献。下载并导出检索结果的题录信息,对其进行初步分析和判断,筛选与本研究主题密切相关的文献。在此基础上,笔者从国外科学数据引用研究进展、国内科学数据引用研究进展、科学数据引用的国际会议及项目实践三个层面对国内外科学数据引用理论研究及实践进展进行总结归纳。

1 国外科学数据引用研究进展

1.1 关于数据引用行为的计量分析

国外有关科学数据引用行为的计量分析多为跨学科研究,及对当前科学数据的引用率、重用情况进行的探索性研究。

关于不同领域科学数据引用行为分析,国外研究范围涵盖遗传学、神经科学、分子生物学等。Park等选取遗传学领域为研究对象,采用探索性研究方法,对148个数据引用样本进行分析,发现影响数据共享和数据重用的因素包括参考文献、补充数据/信息、学术认可、资金信息、作者信息等[1]。Leitner等对神经科学和分子生物学数据出版物中用户的数据引用情况进行了比较研究,发现NCBI MeSH中标有数据集及其相关术语的出版物其引用影响参数远远高于相关领域的平均值[2]。Peter等对作者如何引用生物学蛋白质数据库(The Protein Data Bank,PDB)数据进行了调查。研究发现虽已发表了大量文章,但RCSB PDB的原始出版物仍在被大量引用且引用率均高于后续出版成果[3]。Ding等对中国图情领域的科学数据引用行为作了深入分析[4]。Piwowar等对85个癌症微阵列临床试验出版物的引用记录进行调查,发现48%的开放微阵列数据起引用率占总数据引用率的85%。数据的可获性与其文献影响力之间的相关性可能进一步激励研究人员共享其研究数据[5]。

关于科学数据重用中的引用行为分析,Piwowar等发现尽管数据创建者已使用其数据发表了大量研究成果,其他研究者对数据的重用仍会持续较长的周期,数据重用趋势自2003年以来一直在增强[6]。引用“益处”会随数据集时间积累的变化而变化:作者在首次出版数据集的两年内会利用自己的数据集发表大量论文,第三方研究者对该数据进行再利用所发表的论文周期可持续至少六年[7]。Valerie等则通过来源模式分析发现,随着时间的推移,数据重用情况很难通过标准检索资源进行跟踪[8]。Hailey等通过对期刊论文等的内容分析,发现大多数期刊论文未能对二次分析研究中使用的数据提供足够的引用信息。数据引用作为数据发布、共享和重用的重要组成部分,应将其作为跨领域的实践进行规范,促进数据共享和二次研究[9]。Ferro等通过科学数据引用的案例分析对数据重用现状进行了解读[10]。Hunter等认为由于研究数据是高度动态的,科学家的重用行为往往只是引用整个数据集的一小部分,而目前大多数数据引用方法均是假设数据集是静态的[11]。

1.2 关于数据引用规范的研究

从政策层面关注科学数据的引用也是国外学术界的一个研究热点,国外学者探讨了科学数据的引用原则及其实施框架、相关标准的必要性等。

Starr等回顾了《数据引用原则联合声明》(JDDCP)主要内容,提出用于实施JDDCP的框架和标识符方案,规范了标识符解析所需的元数据元素及数据引用最佳实践的初步建议。其指出实施指南的主要目标受众包括出版商、学术组织和普通研究人员等[12]。Costello等认为数据出版应遵循公认的出版流程:自动质量检查,同行评审和编辑决策。数据引用、元数据及质量控制相关标准的采用可促进跨数据集合的数据集成[13]。Latman对数据引用的作用、共同原则及其普及情况进行了详细描述[14]。Force等认为数据库数据的引用及评估应遵循相关标准,尤其是其与学术研究的关联度[15]。McCallum等认为对科学家和研究人员研究成果引用工作的重视和认可是对其重要的科研激励。虽然论文文献的引用规范已得到了长足的发展,但数据引用规则得到的关注较少[16]。

1.3 关于数据引用技术的探索

国外在科学数据引用技术探索方面发展较快,目前主要集中于对数据引文创建自动化技术的研发,如DOI技术的嵌入和改进、数据引文自动生成器的系统设计与开发、以及数据挖掘技术在数据引用传播中的应用等。

Honor等提出在项目和图像层面识别和引用数据。通过系统开发将数据重用的跟踪降至单个图像粒度,规范用户数据引用行为[17]。Cook等以橡树岭国家实验室分布式活动存档中心的数据引用实践为例,分析了其引用技术路径及其在数据发现和访问方面的重要作用。发现除增强数据发现和访问外,数据引用还可为数据生成器、数据中心及其资助者提供信息,并通过引文索引确定数据集的学术影响力[18]。Hunter等介绍、实施和评估了动态数据引用方法,旨在克服引用数据对象动态变化所带来的一系列问题,正式识别数据贡献者[19]。McCallum等认为在气候变化及其潜在影响等社会相关主题研究中,数据引用越来越普遍,引用工具的开发将成为数据共享的强大动力。只有规范精确的数据引用才能使研究者重现研究成果并实现创新[20]。Park等基于数据挖掘技术对韩国科学引文数据库研究数据的利用率进行了实证分析,强调数据挖掘、可视化技术在研究数据引用传播中的重要性[21]。

1.4 关于数据引用面临的问题和挑战

当前关于科学数据引用实践所面临的问题和挑战,国外研究主要涉及科学数据引用发展的学科差异、科学数据引用政策与实践之间的不平衡、科学研究的评估体系存在缺失等方面。

科学数据引用发展存在学科差异。对此,Robinson等以DCI为数据来源,对数据引用实践进行分析。发现数据引用实践在大多数研究领域发展并不成熟。研究人员引用数据的方式也存在差异:虽然在生命科学与工程技术领域数据引用行为是最多的,但数据引用研究却在社会科学与人文艺术领域更为突出。88.1%的数据记录未被引用,一些存储机构显示的未被引用率非常低[22]。

科学数据引用政策与实践之间存在脱节。Hapgood等对空间气候社区实施AGU数据政策时面临的挑战进行分析。认为如果采用现有标准很多重要的空间气候数据集都难以引用,应考虑如何在数据政策的理想与数据引用实践间取得平衡[23]。Parsons等认为科学论文通过科学数据来证明其观点的正确性,但是论文应如何引导读者了解这些数据本身,以及从哪里进一步审查这些数据的完整性。实际过程中,要根据引文政策中规定的信息来追踪论文论据来源是非常困难[24]。Belter等对国家海洋学数据中心的3个数据集的引用量进行统计发现,虽然建议为每个数据集提供正式的引用格式,但科学出版物中对这些数据集的引用存在很大差异[25]。Garfield等提出将引文计数作为科研评估指标之一,完善现有科研评估指标体系[26]。

数据贡献者的数据引用意识较薄弱。He等认为数据生产者对共享数据的认识存在偏差越来越成为有效共享数据的现实障碍[27]。Henneken等证明提供相关数据的文章能够获得更高的引用率。但现实中要让作者在提交和撰写论文的过程中提供其相关数据却非常困难[28]。Mooney等认为作者对提供数据引文的必要性并未得到广泛认可。影响数据引用实践发展的原因可能包括将数据引入学术记录的时间较短且对数据引用格式的关注不够等[29]。

1.5 关于数据引用的其他研究

除上述主题外,国外学者对于科学数据引用这一热点问题的研究还聚焦于补充数据文件的引用、以DCI为基础的数据引用现状调研、引用数据对象的审查等。

关于派生数据的引用。Kafkas等对欧洲PubMed中心中全文本学术论文的数据引用行为进行了分析,其研究目的在于确认补充数据文件是否应被视为生物分子数据库及其文献整合的信息来源。该研究使用文本挖掘方法来识别和提取各种核心生物数据库登录号,发现补充数据文件包含比文章正文更多的数据库引用。其认为应该改进补充数据的管理,以使这些信息更具可发现性和有用性[30]。

以DCI为基础的数据引用现状调研。Torres等以DCI为研究对象,对其学科覆盖范围,引用数据类型以及相关数据仓储使用情况进行了调研分析[31]。Ikeuchi等也就此主题进行了研究[32]。Peters等探讨了汤森路透DCI数据库中研究数据的引用率及其时间分布,引用率与DOI可用性的关系。研究采用PlumX、ImpactStory和Altmetric.com三种工具收集Altmetrics等分并对相应结果进行比较,发现PlumX的覆盖范围最广。调查结果显示,尽管自2008年以来发布的引用数据集已经有所增加,但约85%的研究数据并未被引用。近几年DCI中通过DOI引用的研究数据比例有所下降。Peters I等还对DCI中2011年至2013年的所有研究数据进行了引用和高精度调查与分析,发现Altmetrics得分的高低及其可用性存在学科差异[33]。

引用数据对象的审查。Larsson认为在文章中引用无关或者错误的科学数据会破坏学术规范,引发学术不端。学术期刊的编辑和审稿人应对文章的引用数据进行仔细审查[34]。Wang等提出可通过数据引用,对研究数据的学术影响进行审查,使其公正透明[35]。

2 国内科学数据引用研究进展

2.1 关于某个领域数据引用行为特征的研究

数据引用行为是目前国内学术界备受关注的研究主题之一。不少学者将不同学科领域期刊文献中的数据引文信息作为研究对象,对用户的数据引用行为特征进行分析和讨论。其中,生物化学、社会学、人口学以及图书情报学等领域备受关注。

王雪等采用计量方法对中英文文献数据引用的行为特征进行分析,认为英文文献数据引用更为规范且数据重用率较高,中英文文献质量与其引用的数据集质量之间存在显著的相关关系[36]。邱均平等以生物化学领域为例,对科学数据共享与引用行为之间的关系进行定量分析,认为数据共享有利于提升数据引用频次及研究成果影响力[37]。丁楠等对《社会学研究》和《中国人口科学》两大期刊的数据引用行为进行比较分析,发现社会学领域数据引用行为较多,年鉴及人口调查资料是其主要的数据来源,但存在大量不规范引用行为,对于已发表论文中数据的引用则通常较为规范[38]。丁楠等对《中国图书馆学报》《大学图书馆学报》《情报学报》的数据引用行为特征进行调查研究,发现前两者的数据引用较多,《情报学报》数据引用行为较少但却相对规范[39]。白娜娜也对该领域数据引用现状作了类似研究[40]。刘祥洪通过定量研究发现人口学领域数据引用行为较普遍且对于政府机构数据的引用最多,尤其是国家统计局相关数据。论文的数据被引频次与其在CSSCI中的总被引频次之间并无显著相关性[41]。王文琪、屈亚杰分别对地学以及社会科学领域的数据引用行为作了实证研究[42-43]。

此外,张英杰等通过问卷调查了解了期刊编辑部对科学数据引用的态度和行为认知,发现编辑部已认识到科学数据引用的潜在价值,要求作者在论文提交时一并提交该论文的相关数据,支持将其提交至编辑部自建的数据存储平台[44]。顾立平认为将数据纳入到引用对象范围内,可精确地计算数据间的使用关系及个人的科研贡献。其对数据级别计量下的学术引用关系进行了描述,从中体现了基于数据的不同引用方式[45]。

2.2 关于数据引用规范的研究

由于目前尚未出现统一的、国际性的科学数据引用标准且科学数据引用实践发展尚处于起步阶段,因此有关科学数据引用规范的内容的讨论也成为国内研究的一个热点。国内关于科学数据引用规范的研究主要集中在对于国外相关标准的调研、构建及实施科学数据引用规范中涉及到的关键问题等方面。

关于国内外科学数据引用标准内容构建及调查。黄如花等调研了英、美、澳等国的15个组织机构的引用规范,认为应创建科学数据引用文化并协调科研数据引用相关利益主体间的关系[46]。欧阳峥峥等通过对Biodiversity Data Journal等15种数据期刊的调研发现,其中10种期刊明确要求采用DOI对其数据论文进行标识[47]。李慧佳等对国外科学数据引用政策的制定情况进行了回顾并指出随着研究数据仓储、数据中心等的建立,科学数据的规范引用问题日益凸显,科学数据的合理引用可使其学术价值得到更高的体现[48]。宋秀芬等介绍了DVN数据引用标准,指出数据的永久引用依赖于永久标识符和通用数字指纹[49]。宋宇等对数据引用共同原则进行了编译,认为其出现表明学界和出版界在数据引用实践上已达成共识,即数据引文须用人机可识别的方式标注出其归属且引用格式应统一[14]。李丹丹等对Dspace、ICPSR、ANDS等研究机构和高校的数据引用元数据元素进行比较研究,认为数据引用的基本元素包括标题、创建者、出版者、标识符及出版年份,还探讨了数据引用的关键技术及其应用情况[50]。王卫华等通过对当前国外科学数据引用格式的研究状况进行了调研和分析,结合中科院“数据应用环境建设与服务”项目的实际需求,提出了国内科学数据的引用规范及其实施过程中应注意的问题[51]。

关于构建及实施科学数据引用规范涉及的关键问题。王丹丹从“何时引用”“引用什么”“如何引用”三方面入手,探讨了科学数据规范引用的关键问题,认为完善的科学数据引用规范应理清数据使用场景,明确引用数据的版本、粒度、 验证方式等问题。还应制定面向科学数据的元数据规范、建立承认作者贡献度的科研评价体系,提供支持科学数据引用的技术支持[52]。彭洁等对国内外科学数据引用格式进行了实例分析,并从数据生产者、使用者、管理者以及政府的角度阐述了数据引用规范的推广价值[53]。

2.3 关于数据引用策略的研究

科学数据引用标准化过程中面临的一项重要挑战就是如何有效引导用户规范自身数据引用行为。为此,相关领域学者针对科学数据引用标准的实施策略展开了讨论。

张静蓓等结合数据出版的模式及流程,针对数据独立出版、数据论文出版、合作出版、期刊自行出版4种不同的出版模式提出了相应的数据引用策略及参照标准[54]。王贵等从技术实现的角度,提出通过VBA语言编程完成Excel和Word文档中数据的交叉引用,提高用户工作效率[55]。王辉等对普渡大学研究仓储的数据引用方案进行了描述分析,提倡采用多重开放数据标准,促进研究数据的发现和利用[56]。吴立宗等详细介绍了中国西部环境与生态科学数据中心在数据引用方面所做的工作,探讨了如何利用DOI技术实现科学数据的引用[57]。彭洁等在对科学数据引用中的主客体关系进行分析的基础上,提出期刊学术论文—科学数据引用,数据中心的科学数据库引用,科研人员的自引用三种科学数据引用路径。认为有效发挥权威期刊在学术圈的影响力,推动学术期刊论文开展科学数据引用是其中现实可行的切入点[58]。吴立宗等将DOI引入数据引用并提出相关发展思路:DOI注册中心、数据中心、期刊编辑部三者应通力合作,相互配合。DOI注册中心应允许所有类型的数据进行注册并将符合数据引用及出版的数据引文信息进行集中管理。数据中心应对数据的版权信息进行序化管理,针对符合条件的数据补充其引文信息。期刊编辑部应引导作者在论文中对数据(集)进行规范化标注和引用[59]。

高雅等通过对美国国立人类基因组研究院ENCODE项目科学数据出版模式的系统分析,认为“Themed Thread”的数据出版理念和基于ENCODE的数据挖掘及可视化技术可帮助研究人员进行发掘数据潜在价值,促进科学数据的引用和共享[60]。杨波等提出科学文献与科学软件/数据集引用特征的关联分析方法并以生物信息学为研究对象对该方法进行验证[61]。沈梦轩从技术层面探讨科学数据引用的实现方法,认为用户数据中心将元数据及其DOI上传至元数据仓储,元数据仓储需元数据的DOI进行注册并提供给用户数据中心,实现引文创建[62]。

2.4 数据引用的相关述评

国内较早关注科学数据引用这一主题的学者专家分别从不同角度针对科学数据引用的研究及实践情况发表了各自的观点,这为后期相关理论及实践的发展提供了宝贵的素材。张静蓓等从数据引用规范、文件管理软件、数据引用的相关利益主体三方面对国外数据引用的研究进展进行总结,发现引用格式不兼容、文件管理软件支持不足、相关利益主体的责任义务不明确等是科学数据引用实践所面临的主要问题[63]。屈宝强等通过对科学数据引用研究进展和实践现状的分析,认为后续研究应侧重于以下几方面:①数据利用中的权益分配;②数据引用标准及实现方式的研究;③基于引用的科学数据计量评价[64]。张静蓓等从数据引用的对象界定、元数据构成等方面对科学数据引用规范研究现状进行总结和梳理[65]。丁楠对我国数据引用的研究现状及特点进行了梳理,认为影响数据引用研究的制约因素主要有数据获取困难、评价指标体系缺失及对该领域研究的重视度不够等,应建立完善的数据引用评价机制,调动数据贡献者的积极性[66]。

2.5 关于数据引用的其他研究

除上述研究主题外,国内学者有关科学数据引用的研究还涉及数据引用索引、科学数据引用相关利益主体间的关系等。①关于数据引用索引的研究,丁楠等对数据引用索引的工作机理进行了分析,认为通过引入数据引用索引可提高研究者共享数据的积极性。同时目前数据引用索引建设过程中存在数据量较小且学科分布不均、数据评价及可视化功能不足等[67]。刘祥洪采用文献计量法,以数据被引量和数据平均被引频次等为测量指标,对我国人口学领域中高被引数据及其发布机构进行了评价研究[41]。②关于数据引用的利益相关者研究,张丽丽等从数据生命周期的角度探讨了数据引用各利益主体的作用及相互关系[68]。这些利益主体具体包括数据的拥有者、整合者、监管者、用户及出版商[69]。③关于引文评价方法的研究。刘盛博等从引用内容分析角度提出一种引文评价方法,通过正面引用、负面引用和中性引用评价指标构建基于引用内容的引文评价平台[70]。

3 相关国际会议及项目实践情况

3.1 国际组织与研讨会

近年来,科学数据引用问题引起了国际学术界的广泛关注,有关数据引用的国际会议及研讨活动陆续开展。国际极地年(International Polar Year,IPY)会议期间,就如何引用数据集问题开展了讨论。GEOSS科学技术委员会也将数据引用纳入到IPY指导方针并制定相关准则。2011年5月,IQSS组织召开“数据引用的原则”研讨会,对研究数据的引用规范问题进行了专门讨论。2011年8月,CODATA-ICSTI组织了“发展数据属性及引用行为规范”研讨会。2012年3月,ASIS&T在“科学数据访问与保存”峰会上组建“数据引用”专家组。2012年5月,JISC、DCC、Datacite举办“数据应用与Datacite的介绍”研讨会[64]。2012年冬季的地球科学信息联盟(Earth Science Information Partners,ESIP)会议,以“通过协作增强联系:在整个数据生命周期中吸纳社区(成员)”为主题,通过了《面向数据提供者与归档者的数据引用准则》。ESIP是一个开放化、网络化的社区,汇集了众多科学研究、数据分析人才及信息技术从业者,旨在促进成员间的知识共享[70]。

与此同时,不少国际组织、研究机构及图书馆也将数据引用提上议事日程,纷纷开展数据引用实践工作。1998年,国际DOI联盟成立,其是全球DOI最高管理机构,全面负责DOI的政策制定、注册管理、技术支持等工作[57]。CODATA-ICSTI设立了专门的数据引用标准与实践任务组,负责解决国际范围内数据引用的实践变化及目前数据引用实践相关方面的问题,并协助协调该领域的国际活动,促进学术界数据引用的共同实践及其标准化[71]。2009年,德国国家科学技术图书馆、大英图书馆、法国科学技术信息研究所、丹麦技术信息中心、加拿大科学技术信息研究所、澳大利亚国家数据服务中心等联合签署“提升网络科学数据开放获取”的学术合作备忘录,建立了DataCite全球数据引用服务,使研究数据集成为可被引用的、独立的、具有唯一标识的科学对象[72]。其中,德国国家科学技术图书馆建立了科研数据入口网站GetInfo、DOI注册代理和全球数据引用服务DataCite[73]。DataCite是图书馆及其相关组织的联盟,致力于定义DOIs的引用方法。其定义和发布了DataCite元数据方案,描述了可能被纳入引文的元数据元素[74]。

3.2 项目实践进展

在项目实践方面,数据引用也获得了较快的发展。STD-DOI、DataCite、 PANGAEA、ICPSR、Dataverse Network等项目及其机构纷纷围绕数据引用展开了立项研究并出台了针对各自平台数据资源的引用规范。

2012年,汤森路透集团旗下的知识产权与科技事业部推出DCI,数据引用实践又迈出了重要的一步。DCI为全球500多个数据存储库提供了一个接入点,跨多个学科提供了超过200万个数据研究和数据集,并通过同行审查流程来监控质量研究数据[1]。这个数据库将数据集和数据研究与其他引文索引的引文联系起来。DCI收录了科学网索引的论文数据。它依赖于数据存储库提供的信息[22]。2014年11月,IQSS的一项项目名称为“Citation++:Data Citation,Provenance and Documentation”,通过添加数据引用出处协助可再生研究[46]。ANDS强调让更多的研究者重复利用科学数据是国家发展战略的重要目标。为此,ANDS对其所有科学数据的引用进行了规范,并提供相关引用标准程序,以便科学数据更好地被共享利用[48]。DataVerse网络研发项目中,社会科学界采用句柄定位器和“通用数值指纹”作为唯一标识符的方法,对数据及其集合进行标注和溯源[75]。

国内中科院资源环境科学数据中心和中国寒区旱区科学数据中心建立了完善的数据评审制度并引入DOI技术,进行数据注册出版,为科学数据的规范引用奠定了基础。2007年,中国西部环境与生态科学数据中心(简称“西部数据中心”)与中国科学技术信息研究所合作探讨,采用DOI技术创建科学数据访问地址,实现科学数据的永久访问,促进科学数据引用并对其使用情况进行准确的跟踪与统计。“西部数据中心”获得了由中国DOI中心分配的独立DOI前缀10.3972,首选“黑河综合遥感联合试验”数据作为试点开展数据出版和引用工作,并逐步推广至中心的其他数据资源的出版及引用上[57]。中国寒区旱区科学数据中心网站公布的《使用条款与免责申明》规定:为保障数据开发者的著作权,用户在使用“寒区旱区科学数据中心”所提供的数据的基础上产出的公开或未公开发表研究成果时,须在相关成果的显著位置上明确注明数据来源[76]。用户还须按照指定规范注明数据来源,从数据中心获取的数据如果属于保密范围之内,须与“寒区旱区科学数据中心”签署保密协议[75]。北京大学开放研究数据平台(Peking University Open Research Data,PUORD)在其《用户指南》中对研究数据的引用和下载作了明确说明。该《用户指南》规定:用户在查看数据集的信息页面时,数据集标题下方浅蓝色背景的一段文字为该数据集的引文格式,其中包含多种元数据信息。当用户需要引用这些研究数据时,需按照相应的学术写作规范重新编排上述信息的顺序和格式[77]。2013年,浙江大学的“社会科学数据引用行为与评价机制研究”项目由浙江省社会科学界联合会规划办批准立项,是国内数据引用项目实践的一次重要尝试。。

4 研究述评

4.1 国外科学数据引用的研究特点

①强调对数据引用问题的实证研究及其阻碍因素分析。不少国外学者以某个领域的数据引用现象作为研究对象,分析当前科学数据引用现状。生物化学、医学、地球科学等是数据引用最为频繁的学科领域,因而也吸引了众多学者的关注。相关研究成果对当前数据引用的阻碍因素进行了分析,主要包括:数据引用研究及实践存在学科差异,某些数据引用实践性较强的学科数据引用研究热度不够,导致理论与实践脱节;数据创建者不愿共享其研究数据,数据监管不力等也是当前科学数据引用实践中存在的主要问题。②重视科学数据引用标准的制定。国外学者在数据引用标准方面的研究起步较早,目前主要是结合数据引用实践,对现有引用规范原则的适用性进行分析,提出改进建议。③在数据引用技术方面不断探索和突破。继DOI技术之后,国外学者继续在数据引用技术方面进行突破创新,将DOI与XANT系统融合,降低引用数据粒度。还开发了ORNL DAAC等技术,用以实现数据引用的自动化。但新技术通常是针对某个特定领域的具体需求而开发的,其应用范围及普适性有待进一步考证。

4.2 国内科学数据引用的研究特点

①侧重于社会科学领域数据引用行为的分析。国内学者目前主要对社会学、人口学及图书情报相关学科领域的数据引用行为作了调研和分析,也有少数学者注意到了数据引用在自然科学领域的广阔应用前景。但目前的研究主要还是停留在社会科学领域。②高度关注数据引用的原则和规范。目前国际上尚未出现数据引用的统一指导标准,国内各研究机构针对本地数据资源的引用规范也比较少。为引导数据的规范引用,国内研究者针对数据引用的格式及原则问题展开了广泛的讨论。其中,不同类型引用对象的引用字段、引用版本、引用场景等问题均在讨论范围之内。③注重对国外数据引用经验的介绍。国内有关数据引用的研究成果中,有一大部分是对国外数据引用实践经验、研究现状的介绍和述评。国内学者主要从引用位置、引用粒度、元数据元素及文件管理软件等方面介绍国外成功经验,为国内研究及实践提供参考依据。

总的来说,数据引用已成为当下多个学科领域共同关注的热点问题。国外发达国家在学术研究和引用实践上都处于先进水平,国内起步相对较晚。在学术研究方面,国外注重实证研究和案例分析,并将研究重点逐步转向自然科学领域,部分学者开始专注于数据引用技术的探索。国内有关数据引用的研究还比较零散,涉及面较广,主要关注于对国外研究情况及实践经验的介绍、数据引用的政策制定等方面,研究重点目前还聚焦在人文社科领域。实践方面,EarthData、CODATA-ICSTI、OECD等国际组织已对数据引用投入较高关注并引导项目实践,国内以中国科学院为首的相关部门及机构紧随国际步伐,积极推动研究数据的共享和重用。

(来稿时间:2018年8月)

猜你喜欢

规范科学研究
来稿规范
来稿规范
FMS与YBT相关性的实证研究
PDCA法在除颤仪规范操作中的应用
辽代千人邑研究述论
来稿规范
视错觉在平面设计中的应用与研究
点击科学
科学大爆炸
EMA伺服控制系统研究