APP下载

研究型图书馆数据馆员能力需求及服务内容研究*

2019-04-20蔚海燕范心怡

图书馆 2019年4期
关键词:数据服务数据管理馆员

蔚海燕 范心怡

(华东师范大学经济与管理学部信息管理系 上海 200241)

随着大数据环境的到来,以信息技术为依托,开放共享、分布协同的E-science环境正在形成[1]。图书馆拥有的文献元数据、日常工作数据和科研数据等急需得到妥善管理及利用,因此数据监管(Data Curation)概念出现,它是一种对数据获取、计划、组织、存档、共享、分析、利用、保护等管理活动的总称[2]。为了妥善管理图书馆的数据,开展数据服务,数据馆员这一职业诞生,且当前仅在研究型图书馆设立。研究型图书馆中的数据馆员主要针对科研中产生的数据,提供科研数据管理服务。

1 数据馆员概述

1.1 数据馆员内涵

对数据馆员的定义通常会加上其工作内容的描述。如:原图书馆员接受培训后从事专业的数据内容管理、保存和归档[3];制定数据标准,对数据进行评估和保存,对数据进行管理和宣传推广的图书馆员[4];数据馆员是提供数据收集、组织、管理和服务的图书馆员[5]。除了工作内容,数据馆员通常被认为需要经过专业培训,并且有行业资质[6-7],主要运用计算机技术,在图书馆这一科研数据密集平台进行科学的数据管理[8]。

结合工作内容与馆员素质,可以将数据馆员定义为:具有一定数据素养,能使用计算机对数据获取、存储、共享、再利用等环节进行管理,并能为用户提供专业数据服务的图书馆员。

1.2 数据馆员职业诞生背景

20世纪50—60年代,早期的数据馆员就已在欧洲和美国诞生,其中一部分发展成为今天数据馆员的一个分支,但研究数据管理(Research Data Management,RDM)及提供数据服务(Research Data Services,RDS)的需求才是如今数据馆员职业兴起的直接原因。

1.2.1 早期数据馆员

早在20世纪50—60年代,欧洲和北美的数据图书馆就初具雏形,且分两种模式。在西欧,主要是由国家研究委员会赞助建立的数据服务中心;在北美,最初是依靠计算机部门或某些学科部门的自发组织。90年代以后,由于资金减少,欧洲的一些数据中心关闭,北美则将数据服务业务搬入研究型图书馆,以获得稳定预算[9]。至此,与数据服务相关的工作才进入高校图书馆。

美国早期的数据馆员多毕业于图书馆学及信息学院,在社会科学相关院系的专门图书馆工作,他们兼备图书馆专业知识与核心社会学科(政治学、经济学、社会学和人口学)知识,与学科馆员类似。可以将其看作专业馆员的一种,或学科馆员的一个发展分支。此外,地理信息系统(GIS)专家、政府文档服务馆员也是现在部分数据馆员的前身[9]12。

1.2.2 RDM与RDS

在科研产出中,无论是论文还是专著都包含着大量科研数据。这些科研数据一般是指在科研过程中产生的,能存储在计算机上的任何数据,也包括尚未转化为数字形式的非数字化数据[10]。如通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据等[11]。

由科研产出的海量数据促使科研环境朝着数据密集型科研的方向发展。许多科研机构、学会和图书馆开始思考如何管理这些数据,并展开了数据管理/数据监管的一系列研究和实践。国外一些大学率先开始了推动RDM议程的实践,包括研究型图书馆在内的一系列机构和利益相关者已经开始参与制定政策、服务和基础设施[12]。

科研数据服务(RDS)是伴随着RDM概念而产生的。RDS是在数据密集生产的背景下,对数据进行人工或智能发现、关联、聚合、重用等一系列管理,使用户能够直接用来解决问题,它能提升已有知识、数据的使用效率,促进新知识的产生和传播[13]。数据服务的对象可以包括科研人员、科研机构,也可以包括非专业个人、企业等。研究型图书馆进行的科研数据服务具有一定的连续性和动态性,且是一种跨学科式的服务,贯穿数据生命整个周期,需要馆员与用户相互配合,动态调整服务内容[14]。科研数据管理与服务需要有专门的馆员实施推进,因此面向科研数据,以计算机为主要工具的数据馆员开始兴起。

1.3 研究综述

国外有相关研究对数据馆员职能提出设想,如数据馆员应开展数据管理培训,开发与建设数据管理平台,帮助研究人员制定数据管理计划[15],帮助研究人员规范他们的数据以符合机构或国家标准[16],为科研数据创建元数据标准以符合存储与共享的要求[17]。此外,国外学者对数据馆员的数据再利用方面的职能提出了较高的要求,比如能够通过数据挖掘更好地反映数据对应的资源[18],或是对数据较为敏感,能够分析出数据集隐含的模式和趋势,提出一些新见解[19]。还有一些文献进行了数据馆员岗位能力需求调研[20-21],以及数据馆员培训情况的调研[22]。

国内的研究多是对国外研究与实践情况的调研,内容包括数据馆员的岗位设置[7]12、数据馆员制度[23]、能力需求[24-25]、职能研究[26]、培训现状[27]等。其中有相关研究通过招聘信息分析数据馆员的能力需求和职能。有对其岗位职责、能力等进行的描述/统计分析(使用2010—2013年共25条数据)[7]14,有描述数据馆员岗位设置的数量与趋势、岗位职责、岗位对应聘者需求等(使用2010—2015年数据)[28],有总结了国外高校数据馆员的服务内容(使用2011—2015年数据)[6]57,还有对我国高校图书馆数据馆员制度建设提出了建议(使用2015—2016年数据)[23]。

2 国外研究型图书馆数据馆员能力要求调研

2.1 研究方法

文章选取国际科学信息服务与技术协会(International Association for Social Science Information Services &Technology,IASSIST)网站中的招聘信息[29],以及美国图书馆协会提供的职位列表(ALA JobList)[30-31]。IASSIST将2005年以来数据馆员职位招聘信息收集汇总,形成了一个数据库,内容全面,但有一定的滞后性;ALA JobList则只存储最近30天的招聘信息,更新速度比IASSIST快,且提供检索界面。两者都将招聘内容进行了结构化处理,便于使用工具抓取。

其中,选取IASSIST从2016年11月至2017年12月的招聘信息,筛选后共40条;由于ALA JobList仅提供近一个月的信息,因此分两次在该网站上提取2017年10月至2017年12月的招聘信息,筛选后共27条。对收集到的共67条信息进行分析,其中有4条是华盛顿大学健康度量与评估研究所(The Institute for Health Metrics and Evaluation,IHME)在一年内重复发布的招聘信息,将其合并为1条,最后分析的是64条招聘信息。将收集到的内容分为岗位描述、学历要求、专业要求、专业知识要求、技能要求、实际经验要求、其他要求。

2.2 研究结果

2.2.1 数据馆员类型分析

按照Graham Pryor和Martin Donnelly在2008年JISC会议上提出的数据馆员职业角色区分方式(见表1),将数据馆员分为数据科学家(Data Scientist)、数据管理员(Data Manager)、数据创建者(Data Creator)和数据馆员(Data Librarian)[32]。

表1 数据馆员职业角色区分

其中,划分入数据馆员的人数最多(53.13%),比较典型的有耶鲁大学招聘的数据馆员、加州大学伯克利分校招聘的数据服务馆员等,这里的数据馆员是指在数据管理、保存和存储方面接受过系统专门的训练,并具有行业资质的人员,他们能进行管理活动,并制定政策。数据创建者次之(21.88%),比较典型的有加州州立理工大学波莫那校区招聘的元数据管理馆员(Metadata Management Librarian)、乔治城大学招聘的元数据服务部负责人(Unit Head, Metadata Services)等,这类职位主要在数据管理与控制方面具有较高专业水平。数据科学家(17.19%)与数据管理员(7.81%)的需求最少。数据科学家更加擅长数据收集和分析;数据管理员专注于数据存储、保存,一些与数据库有关的职位都可纳入此类。

在角色区分的基础上,根据职位名称进行细分,用于确认图书馆的直接岗位需求。从表 2中可发现负责全面数据活动的“数据馆员”或“数据服务馆员”需求最多,共13条;“元数据馆员”需求量位居第二,有12条。

表2 数据馆员岗位名称分类

2.2.2 学历与专业要求分析

关于数据馆员学历和专业要求,主要查看样本数据学历要求中的最低学历和专业要求中的相关描述。最低学历的统计可分为学士、硕士、博士和无要求。专业则查看优先图情专业还是优先其他专业。

在对学历的最低要求中,79.69%的单位要求硕士学位,10.94%要求学士学位,4.69%要求博士学位。另外,一家西雅图公共图书馆基金会招聘的数据库管理员(Database Administrator)要求副学士学位,伦敦国王学院和哈佛商业出版社则没有标明学历要求。

图1 学历要求统计

在对专业的要求上,有48家招聘单位将图书馆学、情报学或图书情报专业列为需求专业,占四分之三。这48条招聘信息中有的只要求图情专业,如马里兰-洛约拉·圣母大学图书馆的编目与元数据馆员(Cataloging & Metadata Librarian)和罗切斯特大学招聘的科学与工程拓展馆员〈Science & Engineering Outreach Librarian(Data Focus)〉 都只要求“ALA认可的图书馆/信息科学硕士学位”;有些岗位除了图情专业,还接受其他专业的申请,如波士顿学院招聘的数据与可视化馆员(Data and Visualization Librarian)接受“ALA认证机构或相关领域的图书馆或信息科学硕士学位”或者“数据密集型研究领域的高级学位,如统计学或信息学,或数据科学相关领域的学位认证。”

其他16家的专业要求有数据/计算密集型学科、经济学、国际关系、统计学、数学、规划、建筑、景观设计、地理等学科要求。由此可看出数据馆员需求各学科人才,体现出该职位专业需求的开放性。

2.2.3 专业知识与技能要求分析

本节通过分析样本岗位描述中的“需求”部分,归纳出数据馆员需知专业知识和需会软件工具(主要指在计算机上使用的软件、语言、线上平台等),将基础需求和优先需求放在一起统计。可将专业知识要求分为:

(1)图书馆系统知识,包括了解图书馆运作、图书馆所处背景、特殊类型图书馆、图书馆政策、图书馆发展趋势等内容。

(2)数据相关知识,包括RDM及其应用(以及RDM发展趋势)、数据生命周期、数据存储(数字保存理论、标准和技术的趋势,以便有效永久保存数字记录,了解各种数字保存方法)、数据素养等内容。

(3)信息组织知识,包括编目知识(编目规则,如MARC、 RDA、AACR2、CONSER Standards等),元数据(结构与标准,包括如DDI、SDMX、OASIS、DC、OAI-PMH和特定于学科的元数据标准,如LOINC、ICD-10、SNOMED等),受控词表,关联数据,本体等。

(4)科研相关知识,包括科研流程、学术交流、科研人员信息需求、科研方法、社会科学/自然科学研究原理等。

(5)其他领域专业知识,包括地理信息系统、统计学知识、档案管理知识、健康科学知识等某些职业面向的特定的学科知识。

统计结果如图2,可知数据相关知识和信息组织知识需求量最大。数据相关知识中有16条要求了解科研数据管理的背景和过程,有12条要求了解数据生命周期。信息组织知识中,有21条要求掌握元数据规则、框架和编码知识。

图2 专业知识要求统计

关于软件工具要求,有49条招聘信息明确写出了要求的计算机技能,种类很多,包括办公软件、统计分析软件、编程语言、数据库系统、编目软件、数据处理软件、可视化软件(表3)。

表3 软件工具要求统计表

根据职位设置,对表3中计算机软件或工具有所需求。且各岗位对于工具使用的基本要求和优先条件也不同,比如对于科罗拉多大学博尔德分校图书馆的数据服务馆员,使用统计工具(SPSS、SAS、R)是基本要求;而对于塔夫茨大学的社科数据馆员(Social Science Data Librarian)来说就是优先条件。还有些岗位在招聘时没有明确的技能要求,但需要馆员在就职后学习新的计算机技能,如加州大学伯克利分校招聘的数据服务馆员,要求在就职后学会使用统计工具和编程语言(如R或Python)。

2.2.4 实际经验要求分析

关于实际经验,本节将从最低工作年限要求和实际经验具体要求进行统计。有27条招聘信息明确列出所需工作年限,将其分为2年以下、2—3年、3—5年、5年(最低),得出图3。

图3 最低工作年限要求

最低要求2—3年工作经验的职位最多。要求5年以上工作经验的职位一般属于管理职位。而在余下的37条招聘信息中,也有许多要求有实际经验,但没有规定具体年限。而耶鲁大学图书馆在招聘数据馆员时欢迎新人,标出了“鼓励新进入职的图书馆员的申请”。

一些没有规定具体年限的职位也有实际经验要求。如哥伦比亚大学图书馆招聘的研究数据协调员(Research Data Coordinator),在优先聘任条件里标明了需要有在研究机构的公共服务经验,需要有数据分析和数据研究支持的经验,需要有与数据打包、数据重用和数据编码工作相关的经验。又如明尼苏达大学的生物科学联络馆员与科学数据监管员(Biosciences Liaison Librarian and Scientific Data Curator)的优先聘任条件:需要有在研究环境中处理数据的经验,需要有在研究型图书馆环境中开发和提供教学的经验。这些条件一般与图书馆本身和岗位职责有关,条件较宽泛,并且不强制要求。

2.2.5 其他要求分析

其他要求指的是一些无法用硬性条件衡量的素质和能力。通过对样本的分析,发现了几个提及较多的能力需求:良好的口头与书面表达能力,良好的沟通交流技巧,能与不同群体有效合作,能处理机密信息并尊重隐私,能将复杂事务清晰表示/展示,能包容动态、不确定的环境,能主动适应环境。

从这些软性条件可以看出,由于数据馆员承担组织内部和外部的工作,需要为外部团体进行提供式服务,因此工作具有动态性,在各个群体内都要与其有效合作。而将复杂数据进行分析并简单化展示也是所需条件之一。数据馆员的职责也许会在未来不断完善的理论研究和实践推动下渐渐扩大,因此数据馆员需要适应环境,通过持续学习来满足今后的需求。

3 数据馆员服务内容分析

从之前调研样本的岗位职责说明中可以看出,数据馆员参与数据管理、提供数据服务是一项系统工程。数据馆员需要嵌入整个数据生命周期当中,对数据监管项目进行规划,帮助科研人员使用数据。DCC(Digital Curation Center)给出的数据管理生命周期模型包括数据创建或获取、数据评估与选择、数据接收、存储前预处理、数据存储、数据使用/再利用、数据转化共7个部分[33]。从整个阶段来看,数据馆员需要参与制定研究机构层面的数据管理政策。各个图书馆制订的各种数据管理与服务规范,也需要数据馆员参与[7]15。如哥伦比亚大学图书馆招聘的研究数据协调员需要“作为校园研究团体的一部分制定数据管理政策”;麻省理工学院所招的数据管理服务主管(Data Management Services)也有“带领图书馆为大学项目提供支持,通过开发和设计政策、服务和基础设施,使教师和学生能够利用研究数据管理他们工作”的要求。

除了整体阶段的服务,从本次调研和以往的研究文献中还将数据馆员需要提供的服务按数据生命周期阶段进行总结。将数据生命周期简化成五个阶段后,内容与结构如图4,但数据馆员大多只参与数据资源获取、数据加工、数据存储、数据再利用四个阶段。

图4 数据生命周期模型

3.1 数据资源获取阶段

在数据资源获取阶段,有多所大学提出了“数据馆员为学生和教师所要求的数据提供采集和访问导向”(加州大学伯克利分校),或“支持研究人员数据的收集”(马里兰大学)。这说明数据馆员可以为用户直接提供数据集或建立数据链接,还可为研究人员提供资源导航、科学数据政策咨询读物,向科研用户提供科研文献和数据、科研工具等指引[34]。由于数据获取阶段的数据量十分庞大,数据形态也较复杂,因此对数据馆员提出更高的要求,如需对数据进行关联、内揭示,建立动态链接等[1]417。

3.2 数据加工阶段

在数据加工阶段,数据馆员对数据进行清洗、筛选、分类,建立元数据,为数据存储作预处理。创建和转换元数据是存储数据的前提,如佛罗里达大学George A Smathers图书馆招聘的元数据馆员,需要为佛罗里达大学数字馆藏(UFDC)转换和创建元数据,并录入图书馆系统中;使用脚本程序或编码将元数据转换为标准模式,开发支持大规模收集访问和特定项目专业词汇的词库和分类法。

此外,元数据馆员还可以为用户提供介绍、指导服务、元数据咨询服务和元数据培训服务等[35]。如马里兰-洛约拉·圣母大学图书馆的编目与元数据馆员(Cataloging &Metadata Librarian)需要“推荐和实施元数据模式,向用户有关元数据记录的创建和使用的培训和意识,并制定元数据政策、程序和工作流程。”

3.3 数据存储阶段

在进行数据预处理与元数据创建之后,需要为数据创建或介绍合适的数据库,为科研人员提供数据保存服务,以实现科学数据的长期保存和再利用[36],内容上包括存储准备、数据上传、元数据的创建与变更、数据删除等服务,其最终目的是建立数据仓库。如耶鲁大学的数字存储馆员(Digital Preservation Librarian),需要建立和维护存储库系统,需要负责直接联系用户,也需要主动寻找潜在数据拥有者,确保数据拥有者的内容得到妥善保存,并在需要时能够访问。数字存储馆员还将与数字存储团队和其他利益相关方合作,记录数字存储服务相关的政策和程序,并确保系统能够通过定期审核。

3.4 数据再利用阶段

在数据再利用阶段,数据馆员可以提供的服务有知识抽取,数据挖掘、建模、分析、融合,为数据添加注释以及来源出处、文献与数据连接、跨学科科研数据链接、数据质量评价[37]、与政府部门合作,从数据中发现社会现象等。如内华达大学招聘的数据可视化与GIS专家(Data Visualization and GIS Specialist),需要在开发和发展数据可视化方面发挥领导作用,帮助师生培养跨学科的信息素养和知识创造。此外,专家还需要识别、调查、评估和实施与数据可视化和GIS功能相关的新兴硬件、软件和技术,从而将图书馆与大学新兴的数据需求联系起来。

4 我国数据馆员及数据服务发展思考

从近几年政策来看,我国有关机构已有设立数据馆员的意识,并有意识推动数据馆员的发展。2015年,《国务院关于印发促进大数据发展行动纲要的通知》提出了“发展科学大数据、知识服务大数据应用”的方向。2018年3月,《国务院办公厅关于印发科学数据管理办法的通知》明确了制定国家科学数据管理政策和标准规范的要求,高等院校是科学数据管理的责任主体之一,并且今后申请的项目/课题中形成的科学数据需要汇交单位或数据中心统一管理[11]。这些纲要、办法的颁布,实际上提高了我国研究型图书馆对数据馆员的需求,因此,由中图学会专业图书馆分会以及高校图书馆分会牵头,我国首期中国数据馆员培训于2016年在中科院文献情报中心开班[38],并且于2017年3月底举办了第二期培训班[39]。这两期培训班均针对图书馆员开展专业性知识和技能培训,教授了多种软件和语言的使用,如R、Python、Hadoop、DSpace、Tensorflow等。此外,中科院文献情报中心每月还举办免费的数据馆员沙龙,面向图书馆员提供数据管理的信息政策与简要信息技术。

通过研究国外数据馆员及数据服务,文章对数据馆员以及数据服务的本土化提出了如下建议。

首先,需要图书馆、图书馆员转变观念。数据馆员应当是多学科覆盖的,动态而有活力的。数据馆员应根据用户数据需求的特征和变化不断学习、提高自身能力,特别是与计算机有关的能力。从招聘信息来看,国外对数据馆员的学历要求较高,专业多为图情学科。因此,需要制定相应的行业准入制度,将职业规范化,这样能够保证人才质量,也为数据馆员的应聘者提供入职标准。

其次,图书馆在设置数据馆员岗位时应当结合本馆发展情况,并不是所有图书馆都需要设置数据馆员。应当根据馆内的需求来设置,将数据馆员岗位职责细化,按照数据生命周期阶段进行设置。

再次,关于数据馆员提供数据服务方面,需要确定图书馆为用户(如科研团队)提供服务的程度。比如在数据获取阶段,是直接给用户他们所需的数据集,还是仅提供数据集的链接让用户自行选择。又如在填写数据管理计划(DMP)时,是帮助用户填写,还是仅针对用户申请的项目寻找相应机构的DMP规则等问题。

最后,除了学术型图书馆,数据服务也应当进入公共图书馆的服务体系。公共图书馆虽然拥有科研数据数量较少,但据广义数据定义,图书馆拥有日常运行数据、馆藏元数据、政府公开数据、古籍数据等,待开发程度高。公共图书馆进入数据管理领域并不需要着重关注数据生命周期,而可以注重人文,注重传播,可以以用户为中心建立一套新的数据服务体系。

(来稿时间:2018年7月)

猜你喜欢

数据服务数据管理馆员
大数据时代高校图书馆数据服务的困境及优化路径
地理空间大数据服务自然资源调查监测的方向分析
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
基于数据中台的数据服务建设规范研究
CTCS-2级报文数据管理需求分析和实现
高校图书馆义务馆员教育工作的实践探索*
数据服务依赖图模型及自动组合方法研究
探讨党校图书馆馆员的工作素质及培训策略