APP下载

如何使用Dryad数据库实现医学数据共享

2018-06-26高凡田国祥贺海蓉杨津曾宪涛吕军

中国循证心血管医学杂志 2018年5期
关键词:进行搜索

高凡,田国祥,贺海蓉,杨津,3,曾宪涛,吕军,3

2012年,大数据时代降临,呈爆炸式激增的海量数据资源在各个领域开始了量化进程。医学研究作为大数据发展的受益者,利用医疗大数据在临床诊断、个体化治疗、疾病预测等方面发挥着巨大作用[1]。与此同时,数据的可再利用性、数据共享政策正在引起全球普遍重视,近十几年数据管理和数据共享的基础设施和相关法规建设正在迅速发展。自2003年以来,美国国立卫生院要求所有大型基金资助科研项目公开其数据。世界最大的开放获取期刊PLOS One要求作者在文章出版的同时提交其数据至公共数据库平台。BMJ出版集团建议作者在投稿的同时将数据存储至Dryad数据库[2-8]。Dryad作为大型稳健的数据共享平台,是实现数据流通、提高数据再利用率的典范。本文将详细介绍如何通过Dryad数据库实现医学数据共享。

1 Dryad数据库简介

Dryad数据库受美国国家科学基金会资助,于2008年9月成立,是一家非营利性会员制组织。Dryad数据库中储存医学、生物学、生态学领域的研究数据,向全球开放,可免费下载其中的数据资源并可再次使用。Dryad的诞生源于在生物学和生态学领域的一些领先期刊和科学团体的倡议,他们希望出版机构采用联合数据存档政策,即鼓励向期刊投稿的研究者提交文稿时一并上传数据至专业数据库来存储数据和共享数据[9]。

Dryad数据库可帮助研究人员实现数据可长期存档保存且开放免费重复使用愿望。截止2018年2月,与Dryad数据库合作的期刊超过六百种,数据文件有六万余件,下载次数多达230万次[10]。

2 注册Dryad账号

登录Dryad网站(https://datadryad.org/)可进行账号注册(图1),在Dryad官网点击“Log in/Sign up”,输入申请者邮箱,点击“Register”。

接下来申请者邮箱将会收到Dryad数据库发来的邮件,邮件中含有一个链接,点击该链接即自动跳转到Dryad网站建立账号的页面(图2)。需要填写姓名、电话,设置账号密码,点击“Complete registration”即可完成注册。无论是下载Dryad数据还是在Dryad平台发布数据,均需先登录账号。

3 搜索和下载数据

所有Dryad的数据均可免费下载使用。在Dryad首页,可以看见“Browse for data”版块,其中显示的是最近在Dyrad平台发布数据的文章标题和作者,以及数据被下载次数最多的文章标题和作者。如对这些内容感兴趣,可直接点击其标题,即可看到该文章的具体信息和其包括的数据文件,如有具体需搜索数据的方向,可在首页上“Search for data”中输入关键词进行搜索,或点击“Advanced search”进行高级搜索(图3)。

图1 Dryad主页界面

图2 Dryad注册账号界面

在“Search for data”可以输入的关键词类型包括作者、标题、数字对象标识符(DOI)等。以搜索2017年发表的与糖尿病相关的文章数据为例,演示如何进行数据搜索。点击“Advanced search”进入高级搜索界面,在“Search terms”中输入“diabetes”,在“Add refinement”下拉菜单中可以选择需要附加的其他搜索条件,其中包括文章标题、作者、主题、发表时间,点击“Publication date”输入“2017”,点击“Add”。搜索结果中展示了符合本次搜索条件的共21篇文章,搜索结果可按照相关性、文章标题、文章发表时间进行排序,图4中的搜索结果是按照相关性进行降序排列。图4右半部分可看到Dryad网站对本次搜索结果按照作者、主题、发表时间、期刊名称有详细的分类,点击任一分类查看其中包括的研究文章和数据。

点击相关性排列在第一位的文章,如图5所示,目标研究主页面展示该文章的基本信息,发布的数据文件和使用该数据时规范引用文献和数据的格式。在“Files in this package”当中,点击“download”中文件名称,即可下载数据。在引用该文献和数据时,可直接点击“cite”,下载其引用格式。

图3 Dryad搜索数据界面

图4 高级搜索界面

4 发布数据

越来越多期刊鼓励研究者公布研究数据,一方面鼓励科研数据的再利用产生更多新的科学发现,一方面推动医学研究的透明化、公开化。研究者发布在Dryad上的数据可用于共享,他人通过Dryad搜索数据同时会发现利用该数据发表的文章,有助于提高该研究者及该出版商的声誉和学术影响力[7]。同时,Dryad会给每一个数据包分配一个全球可识别的,永久的数字对象标识符(DOI),可用于数据引用。

在Dryad数据库发布数据时有以下几点注意事项:①在Dryad数据平台发布的数据大部分均与同行评审的期刊相关联,也接受来自其他知名来源(例如博士论文和书籍)的非同行评审出版物相关的数据;②大多数类型的文件格式均可被接受,例如,文本,电子表格,视频,照片,软件代码,包括多个文件的压缩存档,Dryad也可接受非数据文件,前提是这些文件是出版物不可或缺的一部分并且可以公开,此外,虽然Dryad可以存储软件脚本和软件源代码的照片,但Dryad建议使用具有版本控制的公共软件存储库来维护软件包;③数据文件大小在20GB以下均免费,超过20GB将收取额外费用;④研究人群的资料必须根据适用的法律和道德准则进行适当的匿名处理和准备;⑤需遵循Creative Commons Zero豁免的许可条款;⑥文件语言要求为英语。

图5 目标研究主页面

如果研究者投稿的期刊是Dryad的合作伙伴,那么登录该期刊即可链接到Dryad进行数据发布,研究者需要遵循该期刊数据发布的指南进行数据提交,有些期刊建议数据在投稿时提交,有些期刊则要等到文章接收后才提交数据。一些合作期刊为作者提供了数据在论文出版后延迟发布的选择,通常可延迟一年后再公开数据,且期刊编辑有权酌情在特殊情况下授予更长的延迟发布时间。Dryad已经将数据提交模块嵌入到合作期刊投稿流程中,简化提交流程。一旦文件准备好,提交通常不到15 min。如果研究者投稿的期刊并不是Dryad的合作方,可通过Dryad官网进行数据发布。首先登陆账号,然后在Dryad首页点击“Submit data now”进入数据提交页面。提交数据有四个步骤,第一填写出版物的基本信息,包括与该数据相关的研究论文或其他刊物的发表情况、研究者进行研究工作的所在国家、是否受美国国家科学基金会资助以及数据发布同意书。填写完成后点击“next”,第二步上传数据,第三步审核数据,最后提交数据。

Dryad会对每次提交的文件进行基本检查,例如,文件是否可以打开,它们是否没有病毒,是否没有版权限制,是否显示没有敏感数据,Dryad也会检查元数据的完整性和正确性,例如关于相关出版物的信息,延迟数据发布的日期,索引关键字,同时DOI被正式注册。一旦论文在网上发表,数据包将同时公开发布,除非数据提供者选择延迟发布数据。由于论文标题,摘要,作者等在出版过程中经常发生变化,因此Dryad会根据已接受或已发表的文章确认并更新此信息。

Dryad元数据可通过索引服务使信息搜索者尽快找到符合其条件的数据资源。数据包可以在DataONE网络中进行访问和备份以实现长期保存。原始文件的信息内容永远不会被有意修改或处理,但可以制作不同文件格式的副本以便于保存。如果在归档后需要对数据包进行实质性更改,则必须创建新版本的包。

5 结语

相比其他公共数据库平台,Dryad数据库凭借和众多主流期刊的合作更加高效的实现数据共享,通过给元数据分配DOI的形式使得数据可以被引用,在提高科研数据利用率的同时也提高了研究者和出版机构的学术声誉;Dryad在数据维护和数据容灾方面具有细致的管理政策,因此数据得以长期保存;数据“零门槛”使用和友好的操作界面也使得Dryad数据库受到越来越多科研工作者的青睐。本文详细阐述了如何使用Dryad数据库进行数据下载和发布,相信未来会有更多诸如Dryad一样的开放数据库来推动医学数据共享可持续发展。

[1]宋波,杨艳利,冯云霞. 医疗大数据研究进展[J]. 转化医学杂志,2016(5):298-316.

[2]Dyke Stephanie OM,Hubbard Tim JP. Developing and implementing an institute-wide data sharing policy[J]. Genome Medicine,2011,3(9):60.

[3]李红星,吴立宗,南卓铜,等. 科学数据联合出版模式与内容研究[J].遥感技术与应用,2016(4):801-8.

[4]李娟,刘德洪,江洪. 国际科学数据共享现状研究[J]. 图书馆建设,2009(2):19-25.

[5]林芳芳,赵辉. 美国Dryad数据库共享政策及启示[J]. 中国科技资源导刊,2015,47(6):48-94.

[6]朱艳华,胡良霖,袁雅琴. 国内外科研资助机构科学数据共享政策分析[J]. 中国科技资源导刊,2015,47(3):50-7.

[7]Piwowar HA. Sharing Detailed Research Data Is Associated with Increased Citation Rate[J]. Plos One,2007,2(3):e308.

[8]Khan K,Weeks A. Dryad in the UK and USA - prospective and retrospective data publication[J]. Toxicological Sciences,2016,153(2):kfw132.

[9]The Organization. [2018-03-07]. http://dryad2.lib.ncsu.edu/pages/organization.

[10]Dryad Digital Repository. [2018-03-07]. http://dryad2.lib.ncsu.edu/

猜你喜欢

进行搜索
大学生创新创业训练计划项目探索与实践
——以“旅鲜”App为例
粤港澳大湾区现代服务业发展研究
基于网络药理学策略探讨四君子汤治疗癌性恶病质的潜在机制
乡村振兴背景下返乡创业者胜任力模型初探
基于网络药理学及分子对接探讨芪明颗粒治疗糖尿病视网膜病变的作用机制
以关节炎为首发症状结节病一例报告并文献复习
基于网络药理学探讨山慈菇-皂角刺药对治疗肺癌的作用机制Δ
一种跳水用翻转器材的训练效果的研究①
北京市初三《体育与健康课程标准》实施效果研究
云南猛硐中学瑶族学生体质健康分析研究