APP下载

构建国家科研论文和科技信息高端交流平台的政策与路径探析
——基于国家自然科学基金开放获取与平台建设实践

2021-11-11范英杰

图书与情报 2021年6期

范英杰 吕 栋 李 东 杜 一 韩 宇

(1.国家自然科学基金委员会 北京 100085)

(2.中国科学院计算机网络信息中心 北京 100190)

近年来,全球科技竞争日益激烈,我国科技领域学术产出的数量和质量不断提升,SCI 论文发表数量稳居世界第二,国际顶尖期刊论文数量、高被引论文数量等指标也位居世界前列。 为促进我国科研信息数据的高效开放共享和广泛传播利用,提高国际科技话语权,保障及时获取科技信息的主动权,全面应对科技革命挑战和对接国家战略需求,亟待构建国家科研论文和科技信息高端交流平台。

党的十九届五中全会明确提出将构建国家科研论文和科技信息高端交流平台作为加强国家战略科技力量的重要举措。国家自然科学基金委员会(以下简称“自然科学基金委”)作为我国支持基础研究的主渠道,既是创新研究的支持者,又是资助成果的汇聚者,在高端交流平台建设方面应当发挥引领作用。

本文通过与国内外出版服务机构、国内期刊编辑部、高校(图书馆)和科研院所等30 多家单位的近百名专家学者开展深入交流研讨,系统调研了国内外科研高端交流平台建设情况,总结了国外科学资助机构在开放获取和平台建设方面的成功经验,深入分析了自然科学基金委推进成果开放获取平台建设的实践成效,并在此基础上提出了科学基金助力国家科研高端交流平台建设的政策建议。

1 建设国家高端交流平台意义重大

我国已迈入创新型国家行列,正在迈向进入创新型国家前列、建设世界科技强国的新征程。科研论文和科技信息交流平台是实现科研成果和科技信息发表发布、评审评价、交流传播和保存利用功能的一整套系统。作为科技创新的重要信息基础设施,强化这一国家战略力量意义重大。

1.1 构建高端交流平台是促进科技成果交流的迫切需要

检索全球最大的科技论文数据库Web of Science发现(检索日期:2021 年12 月1 日),近20 年来,全球SCI 论文产出4000 万余篇,论文数量从2000 年的每年100 万余篇迅速增加到2020 年的320 万余篇。 其中,我国第一作者发表SCI 论文约720 万篇,在全球总数的占比高达18%,年增长20%。特别是以预印本平台为代表的新型学术交流体系和新型出版模式空前繁荣,越来越多的科学家将其论文率先发表在预印本平台上以抢抓科学发现的优先权。自1991 年arXiv在美国创立至今,其覆盖的学科领域已从最初的物理学扩展至生物学、数学和统计学等多个学科。因此,要更加主动促进科技信息交流,迅速了解世界创新发展趋势,必须构建以汇集前沿成果为核心的交流平台。

1.2 构建高端交流平台是顺应开放获取趋势的必要举措

开放获取(OA)作为科研论文新出版模式,近年来取得了快速发展,为开放科学时代的来临奠定了坚实的基础。检索国际权威开放获取数据库开放获取期刊目录(DOAJ)发现(检索日期:2021 年12 月1 日),DOAJ 共收录了全球16749 种开放获取期刊,中国OA 论文总量也从全球第4 位上升到第2 位。 2016-2019 年,我国作者在金色OA(全部内容即时开放获取)期刊与混合OA(部分内容开放获取)期刊上发表的论文数量增加了101.7%,其增速约是我国作者发表SCI 论文总量增速的1.5 倍。建设高端交流平台就是要顺应开放获取大潮,将“分散碎片化”的开放资源系统集中起来,提升利用全球创新成果的反应速度,提高及时掌握最新进展的能力。

1.3 构建高端交流平台是把握科研范式变革机遇的重要抓手

当前,科学研究范式正在发生深刻变革,研究内容由静态平均向动态结构过渡,研究方法由定性分析向定量预测转变,研究范畴由分科知识向复杂科学拓展。科学数据和科技成果的加速积累成为引发科研范式变革的突破点。 如AlphaFold与AlphaFold 2作为人工智能辅助进行蛋白质折叠预测的成果,很大程度上依赖和利用了美国布鲁克黑文国家实验室近50 年积累的蛋白质结构数据集PDB。范式变革中我国海量数据优势与丰富应用前景优势凸显,与以美国为代表的西方国家起点差距相对缩小,通过高端交流平台的建设,实现科技成果与科学数据的积累,大大增加赶超机会。

1.4 构建高端交流平台是及时共享科技信息的底层保障

检索Web of Science 发现(检索日期:2021 年12月1 日),2019 年我国SCI 论文占SCI 论文总数的21.6%,而发表在中国SCI 期刊上的文章仅为6.1%。客观上形成了国家出资支持研发,成果发表和后续使用仍需向国外支付费用的尴尬逻辑。调研中一些专家指出,我国科学家申请出版商、顶尖学术机构(学会联盟等)和国际知名知识库等所持有的基础科学数据的访问和使用门槛越来越高,一旦失去或迟滞访问权限,将可能延缓甚至阻碍我国基础研究的进步。 只有建立完整系统的科技文献资源保障体系,构筑自主可控的科技信息交流共享平台,实现我国科研文献信息的本土保存,有力保障及时获取科技文献和科学数据的主动权。

1.5 构建高端交流平台是整合共享平台的需要

目前,各高校、科研机构与科技管理机构等均投入资金进行了各类资源库的建设,但重复、低水平与数据孤岛现象较为明显,高校、机构各自为政、资源重复购买、成本居高不下,现有科技论文资源数据库及服务也难以支持科研活动的全周期,存在重视单资源建设,忽视系统建设的问题。 调研发现,以高校知识库为例,在42 所双一流高校中,有15 所独立建设了知识库,仅有8 所可公开访问,并且普遍存在资源分散、授权不明等问题,这也导致科研工作者对国内平台的使用缺乏积极性。 通过整合共享平台构建高端交流平台,可以避免重复建设,服务国家整体规划和国家科技发展。

2 国外科学资助机构建设高端交流平台的发展态势

科学资助机构在探索开放获取和开放数据等领域政策,推动科研论文和科学数据等相关平台建设,优化平台功能和提升服务水平等方面开展了丰富实践,发挥了较强的引导作用,已经成为高端交流平台建设的重要主体之一。

2.1 开放共享已成共识

当前,国外主要科学资助机构都已将开放获取作为一个重要环节纳入机构的数据管理体系之中,并且在数据存储、内容共享等不同环节出台了相应政策以保证开放获取的顺利实现。开放共享政策强度分为强制性和鼓励性,强制性政策成为主流。 根据全球科研资助机构开放获取数据库SHERPA JULIET统计,截至2021 年,在其收录的176 个资助机构中114 个(占65%)有强制开放获取政策,39 个(占22%)有鼓励性开放获取政策,无相关政策或并未提及的仅有23 个(占13%)。

大部分资助机构对开放内容、范围和时间都有明确要求,如开放内容包括必须提交与资助相关的论文、图书章节、研究数据或数据形式的研究结果等;开放范围包括必须使提交的内容在一定范围内可发现、可检索、可获取等。绝大部分国外科学资助机构都为受资助人实现开放获取留出一定的时滞期,如自然科学类研究项目的开放获取时滞期一般为6-12 个月。

总体来看,在全球开放获取运动中欧洲更为积极和激进。2018 年9 月,欧盟与欧洲研究理事会和来自欧洲的12 个国家的主要研究和资助机构提出强制性开放获取的S 计划(Plan S),要求在所有由国家、区域和国际研究组织以及其他资助主体提供的公共、私人资金资助产出的学术论文必须发表在开放获取期刊、开放平台或者可以通过开放数据库即时获取。 欧盟在“地平线欧洲”(2021-2027 年)中进一步加大了对S 计划的实施力度。 目前,除欧盟之外,已有英国、法国、加拿大等19 家国家科研资助机构以及英国惠康基金会和美国比尔·盖茨基金会等7 家国际或慈善资助和研究机构加入了S 计划。英国研究与创新署(UKRI)在2021 年8 月6 日宣布,自2022 年4 月起,其资助的所有研究成果在发表后必须第一时间向公众免费开放。

2.2 指定存储、多方汇交成为常态

存储位置指受资助人提交的数据存储内容存放的网络位置,通常是资助方提供的机构知识库、指定的存储位置以及第三方机构提供的存储位置(一般为商业化存储空间)。绝大部分科学资助机构对受资助人提交的数据存储内容的存储位置提出了明确要求。 主要资助机构均直接或间接建立了成果开放获取平台,经历了从单个机构建设推动到联盟协同合作的发展形式演进。如以JULIET 中的统计数据为例,截至2021 年,在其收录的176 个资助机构中,153 个(占87%)要求或鼓励资助成果存放在指定或任意开放获取知识库。

在信息汇交和数据来源方面,有受资助者个人提交、合作期刊全文数据推送、历史纸版成果数字化等不同方式。由美国国立卫生研究院(NIH)资助建设、美国国家生物技术信息中心(NCBI)委托第三方企业实体负责建设和运维的PubMed Central(PMC)平台是目前世界上运营最为成功的平台之一,每年投入在500万-2000 万美元。在最初汇交NIH 资助成果全文过程中,PMC 不仅开放了作者提交的通道,还与期刊出版社密切合作进行成果全文的推送,降低了受资助者提交的成本。 在平台组成上,PMC 除具备对公众开放访问的成果检索、下载、分析等功能外,还配套建设了PMC 论文全文唯一标识系统(PMCID)、NIH 手稿提交系统(NIHMS)、合作期刊数据对接系统等。 NCBI 通过其手稿提交系统对全美资助机构开放,并与出版社保持进一步合作,支持美国国家航空航天局(NASA)、美国疾病控制与预防中心(CDC)、美国食品药品监督管理局(FDA)等更多资助机构资助成果的开放获取。

EPMC(Europe PMC)由欧洲分子生物学实验室(EMBL)的欧洲生物信息所(EMBL-EBI)主办、欧洲33 家科研资助机构共同出资建设。作为这些资助机构指定成果汇交平台,EPMC 为使用者提供全球生命科学领域的文章、书籍、专利和临床指南,目前该平台拥有约3970 万条摘要、740 万篇全文。除了相关资助机构申请人汇交的成果资源以外,EPMC 的数据来源还包括PMC、Agricola 和21 家生命科学预印本平台,如bioRxiv、Research Square、Preprints 等。

2.3 版权政策日趋完善

解决或平衡版权问题是实现公共资助研究成果能够开放获取的关键问题。由于公共基金资助的项目成果应实行开放获取,而出版机构往往对非开放获取论文享有版权,因此各资助机构大多要求提交同行评议后的论文手稿,而非由出版社进行编辑、排版后的格式化论文,对于上传错误的版本所导致的风险和法律问题一般由作者承担。总体而言,欧美发达国家在开放获取实践上起步较早,这些国家的科学资助机构的开放获取政策相对而言更为全面、具体、操作性强。随着开放获取版权政策的不断发展完善,资助机构一般但不限于采取以下方式明确成果版权归属:

一是知识共享协议(CC 协议)。 实行论文开放共享许可的主流做法是作者拥有著作权,不涉及出版商的专有出版权,成果发布采用知识共享许可协议。作者在平台发布内容时遵循CC-BY许可,即除了已经明确标明版权的内容外(如版权已属于出版社的内容,或者版权属于第三方其它机构的内容),平台用户在上传内容时必须同意CC-BY 使用许可,即作者允许其他人出于任何目的,免费阅读、下载、复制、传播、演绎、翻译和再利用该作品,只要在使用时标明作者署名和引用来源。 如UKRI 明确规定受资助人提交的数据存储内容必须按照CC-BY 或者同等类型的协议执行开放获取。

二是国家授权许可。如NSF 规定所有内容的使用都需要遵循“联邦政府许可”(The Federal Government license)。该许可下,联邦政府拥有非排他性的、不可撤销的、全球范围的、免版税的许可证,可以行使或授权他人行使版权项下的所有权利,将联邦资助的作品用于联邦目的。联邦政府许可证包括:可将受版权保护的材料包含在一个资助机构的存储库中,并且公众可以在该存储库中以数字形式搜索、阅读、下载和分析这些材料。

三是仅公开本国期刊。日本科学技术信息集成系统(J-STAGE)用于发布由日本学术团体等出版组织发行的科学技术(包括人文科学和社会科学)期刊。J-STAGE 收录了日本各科技学会出版的文献(文献多为英文,少数为日文),学科覆盖数学、通讯与信息科学、综合、物理、自动化、化学与化工、地质、农业、地理、环境科学、电子、生物等。J-STAGE 数据库收录了25 个领域的3064 种期刊、会议文献、研究报告等共5,018,998 篇文献。 J-STAGE Data 是基于英国FIGSHARE 平台开发的、由日本JST 运营的数据平台,于2020 年3 月建立。J-STAGE Data 自动为科学文章的数据添加DOI(数字对象唯一标识),可以在全球范围内开放获取。在版权所有者指定的条件下,数据可以被引用、共享、重用等。

总之,资助机构开放获取旨在促进期刊出版物、科研数据与专著的自由传播,被认为是迈向开放科学的第一步,也是开放科学运动中起步最早、发展最快的部分。

近年来涵盖期刊论文、科研数据、图书、软件、教育资源、实验流程、评审过程、实验室、图像、科学社区等一系列开放实践的开放科学运动逐步在全球兴起。 一些国际组织,如联合国教科文组织(UNESCO)、全球研究理事会(GRC)和国际科学委员会(ISC)也在积极推动。 2021 年,UNESCO 的193 个会员国共同通过了《开放科学建议书》,提出了关于开放科学的第一个全球标准制定框架,为开放科学的政策实践提供了统一国际准则,也为开放获取和开放科学的深入发展奠定了基础。

3 自然科学基金委推动开放获取与平台建设的实践及分析

作为我国基础研究资源配置和政策制定的重要主体,自然科学基金委始终高度重视科学基金资助项目成果信息共享,特别是随着信息技术的发展,依托互联网开展项目成果信息共享工作的步伐不断加快。

3.1 开放获取政策日趋落地

2002 年2 月14 日,由开放社会协会发起的布达佩斯会议发布了《布达佩斯开放获取计划》,2003 年10 月22-23 日,德国马普学会又发起召开了柏林会议,在继承《布达佩斯开放获取计划》的基础上通过了《关于自然科学与人文科学知识的开放获取的柏林宣言》(以下简称《柏林宣言》)。 来自德国、法国、意大利等多国科研机构联合签署了该宣言。《柏林宣言》提出,开放获取的对象是经科学界认可的人类知识和文化遗产的综合性信息资源,包括原始的科研论文、数据和元数据、参考资料、照片和图表、学术类多媒体资源等。 《柏林宣言》鼓励科研人员与学者在“开放使用”的原则下公开他们的研究工作;鼓励文化机构通过在互联网上提供他们所拥有的资源来支持“开放使用”;用发展的手段和方法来评估“开放使用”对促进科研的贡献,以维护在此过程中确保质量和良好科学实践的标准;支持对诸如公开发行出版物等在宣传和使用价值上进行重新评估。

从政策支持角度,2004 年5 月,自然科学基金委签署了《柏林宣言》,这标志着中国资助机构开放获取政策制订进程的开始。 在接下来的十年实践中,《柏林宣言》持续引导自然科学基金委开放获取政策的制定与实施。2014 年5 月,全球研究理事会北京年会召开,开放获取是此次年会的两大主题之一,作为会议东道主之一,自然科学基金委发布了《国家自然科学基金委员会关于受资助项目科研论文实行开放获取的政策声明》(以下简称《声明》),《声明》要求得到公共资助的科研论文在发表后将论文最终审定稿存储到相应的知识库中,在发表后12 个月内实行开放获取。2015 年,为落实《声明》中关于受资助项目产出论文开放获取的要求,自然科学基金委又发布了《国家自然科学基金委员会基础研究知识库开放获取政策实施细则》(以下简称《实施细则》),《声明》与《实施细则》的颁布标志着我国的开放获取已由一般响应向可操作化发展,为后续推动基金资助项目产出论文全文存储库建设铺平了政策路径。

3.2 系统建设稳步推进

从系统建设角度,2006 年5 月16 日,为落实《柏林宣言》,加强科学基金资助成果共享与宣传,自然科学基金委在成立20 周年之际,正式开通国家自然科学基金资助项目信息共享服务网站(以下简称“共享服务网”)。该网站面向社会公众开放,公布了1987-2006 年经项目负责人审定结题项目的基本信息和学术研究结果,包括公开发表的论文、公开出版的著作和会议论文元数据,并承诺之后将逐步公布结题项目的基本信息和学术研究成果。近年来,经过系统重建与优化,共享服务网的检索方式包括:资助项目检索、结题项目检索和成果检索。其中成果检索类型包括期刊论文、会议论文、专著、专利等成果元数据。作为我国学术研究的基础设施,共享服务网收集并保存科学基金资助项目成果的论文元数据与结题报告全文,向社会公众提供开放获取,传播基础研究领域前沿科技知识与科技成果。 随着2015 年《实施细则》的发布,自然科学基金委在继续完善共享服务网的同时建立并开通科学基金资助论文全文开放获取存储库(以下简称“基础研究知识库”),这是国内首个资助机构开放获取知识库,其发布标志着中国开放获取进入了新的发展阶段。 基础研究知识库允许用户基于个人学习、研究等目的,免费获取和使用研究论文全文。 用户在使用该研究论文全文时必须给出作者、标题、详细书目信息,原始页面的超链接或OAI 标识符。 第三方在超出许可条件下使用作品,需得到著作权人的许可。 截至2021 年12 月,通过基础研究知识库开放获取的论文达83.6 万篇。

为应对基础研究知识库、共享服务网等多个开放系统的研发及对外服务带来的数据量增加及数据处理、分析、开放等问题,借助大数据与知识图谱技术,2016 年自然科学基金委启动建设科学基金大数据知识管理服务平台(以下简称“大数据平台”)。 大数据平台将分散在科学基金管理信息系统、基础研究知识库、共享服务网的项目、人员、成果、机构等各类数据进行汇聚和梳理,构建大数据知识网络,提供一系列数据服务,并以此为基础对基础研究知识库、共享服务网进行重构,形成了统一的资助项目成果、结题报告等对外开放的服务平台。

3.3 不足与挑战

总的来看,自然科学基金委无论是开放获取政策制定还是平台建设在国内均处于领跑地位,但也存在一些制约发展的不足。

一是汇交渠道单一。 虽然科学基金信息系统提供了随时提交论文的通道,但既没有形成个人自觉交付机制,也没有建立与期刊平台的合作、推送机制,主要由自然科学基金委根据项目成果报告数据进行清洗后自行上传。

二是存储论文数量少。目前基础研究知识库存放论文约83.6 万篇,仅占全部资助论文数量的20%。而且在存放时效性方面普遍陈旧落后,远未达到论文发表12 个月后开放共享的一般性要求。

三是服务功能单薄。在调研过程中,科研人员反映虽然自然科学基金委不断完善查询功能,但与其他科研咨询服务商业网站相比,“能查到的信息很少”,同时界面信息显示还不够人性化,系统功能缺乏多样性,远不能满足科研人员的实际需求。

四是数据汇交配套管理办法尚未出台。 国务院办公厅于2018 年印发了《科学数据管理办法》,对科学数据汇交做出了明确要求,要求“各级科技计划(专项、基金等)管理部门应建立先汇交科学数据、再验收科技计划(专项、基金等)项目的机制”。 截至目前,自然科学基金委尚未出台与之配套的相关政策。

五是平台的联通性有待加强。 目前科学基金大数据平台仅与个别期刊平台有所联接,与国内其他平台鲜有关联,更谈不上与国际平台互联互通。

4 关于构建高端交流平台的相关建议

作为我国基础研究的主要资助机构,自然科学基金委在推动平台建设方面具有两方面独特优势: 一是自然科学基金委资助成果在我国科技论文产出总量中占比高。2012 年至今,Web of Science 核心合集中中国机构产出的4,332,752 篇论文有64%(2,789,069 篇)获得了项目的资助,在所有获得项目资助的论文中,有81%(2,263,243 篇)受到自然科学基金委基金项目的资助(检索日期:2021 年12 月1日);中国知网706,468 篇自然科学论文中,52%(364,495 篇)获得了项目的资助,在所有获得项目资助的论文中有82%(300,283 篇) 受到了自然科学基金委基金项目资助(检索日期:2021 年12 月1 日)。 可以看出,自然科学基金委资助的成果占到我国所有资助项目成果的80%以上。如此高的科技论文产出占比,为开放平台建设奠定了雄厚的科技论文数据基础。二是自然科学基金委有开放平台建设的信息化基础。通过大数据平台的建设,自然科学基金委已实现对自有数据的初步梳理和总结。依托大数据平台建设的各类开放系统,在开放范围、开放质量、访问情况等方面在国内均处于领跑地位,这使得自然科学基金委具有进一步建设开放平台的信息化基础。

自然科学基金委在高端交流平台建设中完全能够也应当发挥重要引领作用,因此提出以下建议:

一是强化顶层设计与战略谋划。 国家高端交流平台建设是一个系统工程,要发挥我国集中力量办大事的新型举国体制优势,在底层数据、平台软硬件、数据加工、知识产权、知识服务方面加强各方力量统筹形成合力。具体到自然科学基金委,“十四五”科学基金规划对信息化系统做出前瞻性规划,应统筹考虑已有科学基金管理信息系统、基础研究知识库等系统建设的基础和不足,谋划新增基金资助成果实时汇交系统,实现科研人员成果随时提交、科研机构与出版社数据高效对接、成果审核责权利有限下放等功能,探索建设科学基金受资助成果、人员标识与解析工具,在统一维护现有数据资源的同时,为与未来国家高端交流平台在标识上的对接进行技术准备。

二是坚持需求导向与平台思维。 面向学术界实际需求,遵循用户体验至上,切实提高平台服务水平和质量。 要深刻认识开放共享平台通过论文、数据、项目、成果等联接全国高水平科研人员的纽带作用,通过政策设计和数据接口设计,确保平台的互适性和互联互通性,以及平台本身的便携性和规范性。

自然科学基金委应探索构建多主体平台合作机制,推进知识平台通联,以减轻科研人员在文献与数据汇交方面的负担。 加强与资助机构、高校、科研院所、出版社等利益相关方的密切对接和信息互通,努力搭建多主体平台合作机制,可选取具有典型代表性的主体先行试点,当前要做好中国期刊应收尽收工作。

三是平台内容建设坚持四个并重。 科技论文和科学数据并重,既注重传统的学术产出,又注重高质量科学数据建设;单元建设和系统建设并重,要充分集成已有和新建资源平台的优势力量,避免低水平重复建设和数据孤岛;英语和汉语表达并重,既考虑当前国际通用语言,又面向国内实际需求,重视科技信息的汉语表达;新业态和传统业态并重,顺应全球开放获取大趋势,努力探索以开放获取、预印本等为突破口快速提升自主期刊影响力的路径。

在此方面自然科学基金委应充分发挥专业机构作用。 国外科学资助机构的平台建设普遍引入了具有系统建设能力的第三方专业研发与运营团队,收效甚佳。自然科学基金委应积极学习已有先进案例,引入在科研平台系统开发、 科学数据平台建设等方面具有较多经验,且涵盖科技文献及出版资源的第三方建设开放平台等。

四是统筹推进开放获取中国方案。 开放获取过程中知识产权相关法律、政策在科学传播和科学成果应用方式中起着决定性作用,也对高端交流平台设计及建设起到指导和支撑作用。 从自然科学基金委平台建设中可以看出,虽自2014 年就已发布开放获取相关政策和相关实施细则指导平台建设与维护,但具体落实相关细则仍需进一步的法律政策研究作为支撑。如CC 协议作为多家国际机构平台建议提交者选择的版权协议,如何在自然科学基金委进行落实;如何通过法律授权方式获得开放权力;如何建立与科研机构之间的数据交换运行机制;如何建立成果汇交的鼓励监督措施;如何制定符合自然科学基金委要求的科学数据管理办法等。 这些都需要在平台建设与维护过程中统筹推进。

未来建设与发展中,自然科学基金委应加快调整完善相关体制机制。完善开放获取制度规范,在成果开放共享知识产权、成果汇交激励监督等方面加快形成具有可操作性的实施细则。 探索构建与典型期刊合作、与科研机构数据交换等方面的政策细则,探索构建符合国家自然科学基金资助特点和需求的科学数据管理办法和实施细则等。