APP下载

2017年数字资源长期保存国际会议(iPRES 2017)综述

2018-01-24上海图书馆上海200031

图书馆建设 2018年12期
关键词:数字资源研究

杨 佳 (上海图书馆 上海 200031)

数字资源长期保存国际会议(International Conference on Digital Preservation,简称 iPRES)是国际上分享与交流如何保存与管理数字空间内的文化资源的措施、讨论数字资源长期保存相关问题的学术会议。自2004年以来,年会由欧洲、北美洲、亚洲和澳大利亚的相关文化机构轮流举行。2017年的第十四次年会,于9月25至29日在日本京都举办。

1 年会概况

iPRES 2017由日本信息资源管理、数字与人文研究界,图书馆、博物馆、文献馆等主要文化记忆机构共同举办,会议地点安排于京都大学内的国际科学创新楼。来自于25个国家/地区的197名代表参加了此次会议。

从各机构的长期保存研究与实践以及前几届的iPRES大会报告中可以了解,理论研究已经早非iPRES关心的重点,从2004年在北京召开了首次会议以来,各研究机构或自主、或合作,实践了大量数字资源长期保存的最佳案例,在此过程中积累了相当经验,形成了一系列的标准规范和操作指南。目前数字资源长期保存的研究者开始对一些重点领域 (如科研数据、个人数据仓储等)投入相当关注。近年来,大规模的数字化图书、图像、音乐、视频、游戏内容呈现爆发式的增长,但对于这些数据的长期保存研究则相对落后。本次会议将视野扩展到流行文化,主题是“保护数字空间中的多元文化,将它们传递给未来——从流行文化到学术信息”(Keeping Cultural Diversity for the Future in the Digital Space — from Pop-Culture to Scholarly Information)。除此之外,数字资源长期保存领域内先进技术的应用,如语义网、机器学习、自然语言处理等,个人(研究者)构筑的非标准数据库的长期利用等的跨学科课题也是本届会议积极讨论的内容[1]。

会议进程沿用iPRES一贯程式,有专题研讨和主会议两个阶段,专题研讨部分安排有各类交流会、研讨会和培训,包括探索保存标准和分布式数字保存、对隐私敏感数据集合的长期保存与授权访问等的专题研讨会;以及偏重于解决具体的实践性问题的培训,如使用Fedora管理数字内容、理解与实现PREMIS等。主会议阶段安排有3场主旨报告,并从元数据与关联数据、数据管理、仿真与软件保存、教育与培训、数据采集与评估、社区建立、保存工具、长期保存系统、内容分析、认证等方面安排了30个报告,并借主办方便利,首次开展了关于亚洲地区数字资源长期保存研究与实践的专题交流。

可能是第一次在日本主办的关系,会议首日安排有半天的日语系列讲座,筑波大学图书馆、信息与媒体研究院的杉本重雄教授介绍了日本数字资源长期保存概况,此外还有日本学者关于社会调查中问卷数据的采集、保存和二次利用的专题讲座,以及以东京大学档案馆在近代日本史研究方面、日本国立历史民俗博物馆在考古研究中历史图像数字化与保存的实践为例的日本在历史、文化数据管理(Digital Curation)上的实践。系列讲座一方面向日本学者介绍了数字资源长期保存,另一方面,也方便与会人员了解日本在此方面的实践,为接下来几天的讲座起到了热身的作用。

1.1 特别交流会

作为主办机构的京都大学东南亚研究中心(The Center for Southeast Asian Studies,简称 CSEAS)是一个独特的跨学科研究所,积极促进区域研究和信息学的融合,其东南亚区域研究在日本占据领先地位[2]。CSEAS的原正一郎教授是年会的联合主席,本次年会对亚洲地区数字资源长期保存研究与实践的现状首次进行了讨论。而会议主题中的流行文化,包括东道主特别擅长的动画和漫画的数字资源长期保存也作为另一个特别交流会的讨论内容。关于亚洲地区数字资源长期保存研究与实践的专题交流分为两部分,包括会前的闭门交流会和正式的专题交流会。

会前的半闭门交流会由原正一郎教授主持,借助CSEAS的研究优势,侧重于东南亚学术资产的保存与共享。该半闭门交流会也欢迎与会人员作为观察者参与,张晓林教授在交流中介绍了中国科学院文献情报中心(国家科学图书馆)数字资源长期保存体系的建设实践。亚太各国在文化、语言和经济环境上的发展差异很大,但各国都在产生越来越多的数字资源,数字资源长期管理、保存、使用是各国共同关注的课题。通过会前半闭门交流会的安排,在正式的专题交流会上,来自中国、日本、菲律宾、泰国和新加坡等地的与会人员分别分享了所在机构或国家(地区)的数字资源长期保存的最新信息,CSEAS的研究人员补充了如柬埔寨等国的长期保存现状,并与世界其他地区的与会人员讨论数字保存问题。

日本国立国会图书馆的网站存档项目(WARP),数据量已经超过1PB,超过50亿个文件,其中85%的内容可公开获取[3]。在项目建设中,网站存档与服务网站直接相连,一些公共机构甚至将参与WARP项目作为其运营数据备份的一种形式。对于WARP项目中的数据,日本做了不少分析研究,也整理建立了一些特别的数据集合,比如地震前后的对比情况。

新加坡国家档案馆的公民档案项目,发动民众当“公民档案管理员”,通过众包的形式,凭借群体之力为历史文件进行抄写及转录,或借助集体回忆为旧照片提供图解,推动历史研究[4]。项目网站上的资料主要是新加坡海峡殖民地(Straits Settlement)时代的手写公文及信件,很多以英文草书字体书写,注册用户通过仔细阅读,可以进行内容转录,将识别出的文字输入系统;或者为新加坡国家档案馆收集的大量由各政府单位或机构或民众移交或捐赠的,缺少文字说明的旧照片添加图解说明文字[5]。新加坡国家图书馆管理局的Lee Kee Siang提到,数字资源长期保存是新加坡国家数字战略的一个专门的重点领域,其目标是让每个公民都能够访问数据,使用数据。新加坡国家图书馆的珍贵馆藏都将被摄取并长期保存。

在交流讨论中,多位发言人提到了数字资源建设的一个通病,由于早期数字化图像时采用的分辨率太低,亚洲地区在应用数字资源长期保存平台时遭遇向后兼容问题,部分图片需要重新数字化。而共同面对的困难则包括海量数字内容与有限的资源之间的平衡、技术设施的缺乏,机构长期保存责任的意识淡薄等。

此外还有与流行文化的代沟问题。在日本,数字内容产业还包括一个巨大的动画游戏市场。动画游戏更新快、数据流失也快,如何采用适宜方式保存这些不断发布的游戏内容,是日本文化机构努力想解决的问题。在新加坡,其智能手机普及率全球第一,人均设备持有数高达3.3个。年轻的社交媒体用户经常在Snapchat平台上进行社交,该应用的“阅后即焚”功能,使得数据被采集时,已经失去了上下文相关信息。这些不断出现的新的动态网站以及前端展现的技术,使得新加坡自2006年启动的旨在收集、保存包括新加坡的网站和关于新加坡网站的网站存档项目,难以寻找到完善的捕获内容、解决安全问题的方案。

1.2 主旨报告

主会议阶段每天安排一个主旨报告。

数字资源长期保存的资助者倾向于要求开放数据和数据管理政策,以确保数据的长期存储与获取。这就要求在长期保存体系设计时,就将可信赖放于首位。荷兰数据归档与网络服务中心(Data Archiving and Networked Services,简称DANS)的Ingrid Dillo通过分析数据共享、存储认证的发展现状,提出推动数据,尤其是科学数据的开放共享与规范引用,数据的共享使用是减少数据造假的有效途径[6]。那些出于个人知识产权考虑或别的原因没有共享出来,而是保存在个人电脑或便携存储上的数据更容易面临长期保存的问题。但是来自于外部的驱动因素,如研究基金的政策或者是出版要求等,是激励研究者共享数据的一种方式。以iPRES 2017结束后不久的一条新闻为例,2017年10月起,剑桥大学的所有博士毕业生都被要求提交电子版博士论文,以便保存。同时,剑桥大学图书馆也可以利用这个机会在互联网上公开发布。为庆祝今年的开放获取周,斯蒂芬·霍金的博士论文首度免费公开,受欢迎程度几乎致使学校服务器瘫痪[7]。此举虽然是为了推广开放存取,但数据保存,正是未来开放的第一步。为消除长期保存过程中,利益相关者对数据准确性、完整性的质疑,提高数据长期保存的意识,改善沟通和工作流,Ingrid Dillo提出在数字资源长期保存领域需要与FAIR数据、开放数据建立联系,将FAIR作为数据质量检查的原则应用于实际操作中,建设可信任的数字保存系统。

加州大学伯克利分校东亚图书馆周欣平馆长的主旨报告以数字敦煌项目建设为例,介绍其中数字资源长期保存平台的实践。数字敦煌的长期保存工作流涉及3个模块:数据管理模块创建文本、图片、音视频资源并编目,同时将其与高精度的数字化文件一起提交给数字敦煌平台,这一模块同时对版本进行控制;长期保存模块负责校验、验证数字化文件,提取技术元数据,跟踪版本变化,同时监控过时的文件格式,进行迁移、在数据磁带上备份数据;数据发布模块利用数据管理模块中的元数据进行数据共享[8]。周馆长介绍,工作中最难的一点是让工作人员在创建数字资源时,就认识到这是长期保存工作的起点,具有相当重要性[8]。

立命馆大学映像学部中村彰宪的主旨报告以学校的游戏存档项目为例介绍了日本在数字游戏长期保存方面的研究。数字游戏软硬件方面的蓬勃发展给该项目带来了巨大的挑战。该项目试图通过3种形式进行保存,除了物理介质的软硬件保存之外,还包括通过模拟器和操作游戏时的视频图片的采集[9]。

1.3 专家组研讨会

专家组研讨会由来自英国国家档案馆、法国国家图书馆、剑桥大学图书馆、中国科学院文献情报中心等机构的专家共同组织。这几位专家目睹了数字资源长期保存工作在这些年的发展,也担忧从事这一领域的工作人员与资源并未得到同步的增长,因此提出了效率实用主义(Operational Pragmatism)的概念[10]。

全面、彻底地开展数字资源长期保存工作需要投入大量的基础设施和资源,当前这一领域的最佳实践通常依托于一流研究机构,或在发达国家的国家档案馆、国家图书馆。但是小型机构、发展中国家的组织往往还挣扎在数据管理的基础工作中。在资源有限的情况下,如何有效计划、有条不紊地发展发展中国家的资源保存工作,专家们从基础设施与存储建设、预摄取流程、保存元数据、可伸缩性、技术策略、工具和工作流等不同主题提出了一系列意见与建议,目的是根据不同文化、机构和情景语境,商讨一系列最低限度的基线,可用于数字资源长期保存的规划与战略发展,同时将这些基准调整到当地环境。比如数字资源长期保存知识的培训,英国国家档案馆的Anthea Seles认为必须明确技能培训的边界,确保核心知识技能的培训;张晓林教授认为,应该区分可快速完成的职业技能基础培训和对长期保存领域研究者的深入培训。

2 当前研究热点

主会议阶段安排有10多场30多个报告,由于笔者无法一一参与所有分会场,对会议论文进行了汇总、分析,并参考了年会的合作纪要备忘录[11],总结出此次会议的6个研究热点。

2.1 元数据领域的新理念

METS作为描述元数据、管理元数据、结构元数据的编码及转换标准,被广泛应用于数字图书馆的建设。METS 1.0标准下允许直接封装经过Base64编码的二进制数据,然而实际应用中几乎没有机构这么使用,甚至芬兰在制定国家层面数字资源长期保存时的METS纲要时禁止使用。同样的,结构链接部分和行为机制部分也未如设计初衷那样被广泛使用。此外METS的结构过于复杂,子元素嵌套层次过多,掌握起来较复杂,提高了使用的门槛。METS编委会在年度会议讨论中,提出了简化METS(METS Lite)。这一想法首次被提出是在iPRES 2015会议上,今年,编委会提出了具体的方案,从确定未使用、少使用、容易被误使用等方面着手开始简化,其他备选方案还有为长期保存、元数据传递等不同的目的优化限定不同的METS、简化后的METS作为METS 2.0 与 1.xx 共存。

数据溯源是OAIS模型定义的长期保存描述信息的重要组成部分,应确保元数据的寿命及将来可用。数据溯源包括描述改变情况、元数据对象上产生的活动等。筑波大学图书馆情报媒体研究科博士生李春秋进行了元数据长期利用视角下元数据溯源描述模型的构建研究,认为应当跟踪元数据定义的修改,以防止将来使用元数据时出现不一致的情况[12],并由此提出了基于数据溯源的一系列规范PROV和DC元数据新加坡框架的描述元数据溯源的应用纲要的模型。

关联数据的应用成为新的实践热点。耶鲁大学、法国国家图书馆、开放存储基金会的研究团队正在尝试为Wikidata(维基数据)中的数字资源长期保存领域建模的过程中,认为采用协作方式创建元数据,并将其作为关联数据开放,会减少长期保存专家在描述资源时的冗余工作[13]。Wikidata是一个旨在将维基百科大量的信息结构化,增加利用价值的项目。和其他的维基项目一样,是人人可编辑的。在此过程中,采用机器可读、关联开放的数据描述数字资源长期保存领域还能在应用程序和信息系统中实现数据重用,降低开发新应用工具的系统开销。此外,Wikidata的社交性以及技术基础架构可使长期保存参与者采集、整理的数据持续可用。通过参与Wikidata社区的交流讨论,该研究团队认为,将Wikidata作为国际间的数字资源长期保存社区技术型元数据的机构库服务是可行的[13]。

2.2 可用于长期保存的新工具

大量数字资源长期保存项目实践带来了新的机会、挑战与经验,在此过程中,既给理论研究带来了新的反思,也研发产生了一系列新工具的应用。

PDF是交换固定内容电子文档的常用文件格式,被广泛应用于学术和文化遗产领域的出版、研究和传播中。因此,PDF/A也被认为是适宜于长期保存工作的存档格式大量使用于保存系统,但最近对此产生了一系列争论。德国柏林楚泽研究所(Zuse Institute Berlin)的 Marco Klindt通过对PDF/A发展历史和技术复杂性的回顾,对其优缺点、可访问性和可重用性方面的潜在缺陷进行研究,认为这些潜在问题可能为将来的内容用户带来问题,为此他提出了一系列策略来缓解这些问题[14]。由文化遗产机构和PDF产业合作建立的veraPDF联盟也共同研发了一款开源的、可用于PDF/A一致性检查的工具软件[15]。

同样的,对PDF进行语法和结构验证的格式验证工具JHOVE,对于其验证规则有效性的正式的全面测试,也受到了关注。欧洲的一个研究团队提出以一组轻量级的文件来测试JHOVE PDF模块的格式验证标准,通过测量其语料库的代码覆盖率,并将检测到的不一致的内容送回开源开发过程[16]。数字资源长期保存与软件管理都具有周期性的特点,长期保存工作需要定期评估,软件需要不断的更新以确保能跟上技术发展与机构需求。该研究团队特别强调,类似的测试工作在每一次软件更新时都需要进行。

纽约公共图书馆已经数字化了5万多件音视频资源进入长期保存,文件大小超过了1.5PB。在OAIS定义的质量保证和审核提交功能阶段,使用BagIt文件打包格式。由于数据量巨大,在数十万个数据包中存储数千兆字节,对图书馆的工作提出了很高的要求,数字资源长期保存部门的负责人Nick Krabbenhoef介绍了在此过程中,对于无法通过OAIS审核的内容,他们是如何适度框定数据包摄取规模、扩展bagit-python库解决这一问题[17]。使用BagIt打包时,包含的文件数量和文件大小会记录在0xum中,并通过哈希表校验。这一方面保证了摄取数据的完整性和准确性,另一方面,打包时错误地包含了系统文件、或者打包之后重新修订元数据、对文件进行重命名等操作会使得0xum的内容错误,从而导致整个数据包失效。对这类错误的响应对改进工作流至关重要,然而对于如此巨量的数据,手工响应是不可能的。因此,纽约公共图书馆通过bagit-python库开发了可以在数据包中有选择地删除系统文件、更新检验并记录修正时间日志的工具。

芬兰国家科学IT中心的研究团队开发了一个开源的预摄取工具,可以帮助生成SIP,提交给芬兰国家数字资源长期保存服务平台[18]。这一工具包括可以按照服务平台对METS文件的要求,生成其中的不同段落,当有不同的使用需求,或者是为不同机构库服务时,可以通过对工具定义的必要信息和参数的快速简单的修改重新生成SIP的结构与描述信息。该工具可以方便对METS、PREMIS或其他元数据格式不那么熟悉的人员/机构进行数字资产的长期保存。

DuraSpace公司在Fedora的升级过程中,面对软件不断升级、甚至重构带来的无损数据保持、数据迁移问题,开发了一种可用于数据迁移的工具[19]。这一数据导入/导出工具遵循RDF和BagIt文件打包格式,既可工作于不同版本的Fedora之间,也可与其他长期保存系统(如LOCKSS、APTrust等)间实现无损数据迁移,加强了不同机构存储平台间的互操作性。

印第安纳大学伯明顿分校的研究人员通过一个游戏仿真器的数据保护案例,提出一个依托于Intel SGX实现的,在不可信平台上运行可信软件,保护敏感的原生数字内容的保密性和完整性的方式[20],该方法可帮助图书馆、档案馆在授权用户获取数字对象的同时,限制非授权复制的风险。

还有一些新工具,是伴随着新技术,如语义网、机器学习、自然语言处理等的应用而产生的。前期的数字图书馆建设已经使得大量历史文献的书目数据和图像在互联网上发布。若想通过诸如关联数据等形式,用结构化方式重整这些书目数据,元数据提供者就需要从书目中提取结构化信息,这需要相当的专业能力和时间。佐贺大学的研究者提出了一种半自动的方式将日文书目数据中的自然语言转换为关联数据[21]。这一方法包括按照历史遗产研究方法的命名实体的本体识别,帮助机器获取诸如封面图片的创建者等信息,并最终创建从命名实体到URI的连接。

此外,目前虽然已有大量的开源自然语言处理工具可以识别命名实体,但图博档机构在对原生数字资源的处理、分析工作中,这类工具的使用还不普及。北卡罗莱纳大学教堂山分校的研究者通过对原生数字资源的复杂性和可能的用例进行研究,分析报告了将BitCurator NLP用于从原生数字资源文本中提取特性的可行性[22]。

2.3 特色数字对象的新应用领域

科研数据长期保存,尤其是大型异构数据集的保存与管理、科研过程建模与工程模型的模拟、风险模型与依赖关系管理是当前研究的热点。成功的科研数据长期管理应该贯穿整个项目阶段。数据管理不仅仅是研究人员的责任,其所在机构也应当提供必要的技术基础设施、咨询和支持。德国研究基金会资助的一个研究团队通过一项针对研究数据管理的项目,开发了一个支持规划、实施和组织研究数据管理的工具[23],可为机构认证过程提供接口,以便本地化安装、部署。主要功能包括在项目过程中,不断更新、增加信息;为不同的用户,如研究人员、项目协调人员、IT部门、数据管理人员提供不同的自定义视图;提供多种数据导出,包括数据管理计划的导出。未来将就数据管理任务,如时间期限和提醒等继续进行探索。

对特定领域和复杂对象数据的长期保存,是近几年长期保存实践中面临的一大挑战。数字艺术、动画游戏、社交媒体这些流行文化中产生的数字内容该如何对其制定长期保存方面的策略、计划、工作流,也是本次年会的主题之一。

来自法国的一个研究团队通过3年的研究,致力于将数字艺术,特别是互动式的艺术展览长期保存。这类艺术作品从概念设计到实现,通常包括算法设计、建造实施、互动展示等一系列复杂的过程,他们为此研发了一个数字艺术作品的通用描述系统,设计了一个概念模型和真实的数据模型[24]。

动画游戏作为一种不断发展的媒体,不断涌现新技术,比如将物理世界与虚拟世界结合,且融合了社交元素的增强现实游戏,如Pokmon GO、Ingress等,不断在给长期保存带来新的困难。华盛顿大学的研究团队通过对这两款游戏进行案例研究,试图描述清楚这些挑战[25]。之前针对动画游戏的长期保存侧重于通过采集相关工作和文档来保存游戏的背景和历史,但对于增强现实游戏之中没有确定性的行为,根据现实世界的变化会产生不同结果的游戏来说,这是一个全新的挑战。

无论是互动艺术,还是动画游戏,本质上都是一种软件。当前社会生活离不开各类软件。软件的长期保存逐渐成为数字保存社区的热门话题。软件的表现形式——源代码,作为数字对象,被认为需要纳入长期保存。法国国家信息与自动化研究所和巴黎第七大学的研究团队提出了软件遗产的概念,倡议对公众可访问的软件源代码进行收集、保存、共享语料库[26]。互联网上存在着众多的开源项目发布场所,由于种种原因,使用这些平台的代码进行应用开发时,往往会造成无意识的代码损失。该研究团队通过Merkle DAG有向无环的数据结构设计了源代码存档平台Software Heritage,目前已收集500多万个软件开发项目的30多亿个软件源代码文件,包括GitHub、Debian、Google Code等多个软件源代码托管平台。

对于过时的软件,模拟当时的软硬件环境,读取原始信息,重现用户的交互体验,是长期保存方案的重要组成部分。但模拟仿真环境的构建需要专业人员花费大量时间配置,难以大规模推广。欧美一个跨国团队的研究通过将仿真即服务(Emulation as a Service,简称 EaaS)加入实际的数字资源长期保存基础架构之中的实践,从耶鲁大学数字资源长期保存系统Preservica中提取出一套过时软硬件的信息,其METS记录中,包括了描述安装和使用顺序的内容,将其与弗莱堡大学的仿真框架服务链接,EaaS中的描述工具采集技术环境的需求信息,将提取出来的信息还原至事先已经配置好的旧时的操作环境中,使得耶鲁大学的用户可以快速方便地重现早期用户在Win95/98环境下使用该软件时的交互体验[27]。这一研究为模拟仿真的规模化使用提供了一种新方案。

还有一些信息,由于使用了更过时的软硬件环境,已经难以读取,比方标准软盘的鼻祖——8英寸软盘。来自澳大利亚、德国的研究者共同合作,通过信号模拟方式自制了一套读取设备进行抢救性的数据读取,并以此提醒在长期保存工作中,相关硬件设备的保存也至关重要[28]。

电子邮件在当前人们的生活、工作中扮演着重要的角色,是反映个人自我表现、交易记录、合作、人际网络的独特视角和证据。一些名人,如政客、作家、科学家、学者等在电子邮件通信中显露他们的专业性,也不可避免流露出个人行为,同样的,电子邮件也能反映人群中的社交关系。斯坦福大学特藏与档案部开发的ePADD,是一个免费、开源的计算分析软件,支持从评估、摄取、处理、发现到传递的电子邮件归档过程[29]。软件开发过程中使用了计算机科学和计算语言学领域的技术,如自然语言处理、命名实体识别、机器学习等。ePADD可帮助研究人员、新闻记者、一般公众通过电子邮件集合了解更多的事件信息。

2.4 可信度保障体系建设

数字资源长期保存的根本目的在于确保资源的长期可获取性,因此保存资源的完整性、可用性与可持续性都需要得到保证,这就对数字资源长期保存的可信度提出了要求。

独立机构进行长期保存时,可在战略制定时引入差距分析[30]。为帮助机构在系统实施过程中,从当前众多的分布式数字资源长期保存服务选择合适的平台服务,数字资源保存合作联盟MetaArchive 2016年执行委员会会议决定采用案例研究的方法,对9种分布式数字资源长期保存服务进行环境扫描,包括MetaArchive、APTrust、DPN、TDL、DuraCloud、Preservica、Chronopolis、Rosetta 和Arkivum,并比较异同[31]。通过对组织方面的探讨,如治理、支持和培训、文档、社区建设、交流合作、市场营销等,以及技术方面,如功能性、安装和配置、内容、摄取、存储、安全、访问与集成等的比较分析,帮助图书馆在选择长期保存系统时有所参考依据。

在多机构合作保存的模式中,如何结合OAIS参考模型的概念和原则,对其中分布式的部分进行校准,如确定一个完整的数字对象是否被独立保存,以确保在需要的时间内至少有一个正确的复本是存活的。这需要参加合作的组织、机构间的具体协议来实现。丹麦皇家图书馆在国家长期保存机构库项目实践中,使用了OAIS模型的扩展Outer OAIS-Inner OAIS(OO-IO)模型帮助分析分布式OAIS机构库中的复杂的数字资源长期保存任务的分解,实现系统设计与审核[32]。

2.5 文档、教育与培训

随着长期保存项目的广泛开展,越来越多的研究者和工作人员参与到这一活动之中。牛津大学图书馆的两个研究者设计并实施了一个数字资源长期保存培训需求评估的项目,包括在职员中确立是否存在培训需求、根据实际需求有目的地建立培训计划并实施[33]。项目实施过程中,采用数据管理职业培训的课程框架DigCurV对结果进行计量。通过设计一系列问题,该研究项目组首先对牛津大学研究档案馆(Oxford University Research Archive,简称ORA)的9位不同岗位、层级的工作人员进行了访谈,了解他们对所从事工作的掌握程度,以及是否可将相关技能通过培训传递给其他工作人员。访谈问题包括元数据标准、交流沟通技能、长期保存领域知识、项目管理、长期保存计划规划能力、法律框架等。研究表明,ORA的工作人员对传统的图书馆技能(如元数据编辑等)非常擅长,但对于他们正在从事数字资源长期保存工作究竟在ORA的服务中起到什么作用并不太了解,当然,从专业角度看,他们非常了解长期保存不当的风险。第二轮访谈则是针对牛津大学机构库的6位软件开发工程师,同样的,他们对传统图书馆业务比较了解,而对长期保存领域的知识,只是大致知道存在另一套体系。该研究下一步准备就访谈评估发现的问题,制定有针对性的培训计划。

帮助图书馆员掌握信息领域各类新兴技术(如数字科学、数字人文等)至关重要。美国国会图书馆在馆藏数字化利用建设的过程中,不仅着重于紧跟技术潮流,深化对数字馆藏的探索与价值发掘,更扩展合作伙伴,形成一个广泛的社区,帮助从事该工作的图书馆员掌握新的技能[34],以此促进机构创新。

在存档和信息技术之间,数字资源长期保存处于一个微妙的位置,双方都可能互相忽视对方。因此数字资源长期保存成功与否、技术文档的质量具有相当重要的作用[35],包括应用、软件、硬件在内的技术方案的不断发展,但图书馆、档案馆在管理原生数字内容时往往忽视对相应技术文档的更新。美国的两位研究者在报告中提出,要在数字存档工作中的理论研究和技术实践中建立桥梁,并建议,在数字存档社区中,采用更以人为本的方式,兼顾双方的工作和需求来建立、维护技术文档。

2.6 可扩展、可持续的服务

荷兰在数字资源长期保存的项目实践与研究中,始终处于最早作出反应、活跃的位置。由于具有丰富的经验,本次年会中,多个来自荷兰的研究项目均着眼于如何保证项目的可扩展、可持续性。荷兰数字保存联盟的研究团队以专题研讨会的形式,分享他们通过分解各阶段工作任务的形式,定义数字资源长期保存的供求关系、分级评估机构的长期保存需求现状,进而在全国性的分布式网络内寻找可满足自己机构需求服务的适当方式,帮助档案馆和文化记忆机构共享资源,在全国范围内建立分布式的数字资源长期保存网络。这样的合作形式,对小型机构有效率的数字资源长期保存大有裨益。

由多家大型机构数字资源长期保存专家组成的荷兰数字文化网络,作为荷兰文化遗产战略的一部分,致力于其组织的认证过程[36]。通过分阶段工作、使用成熟的检验工具 scoremodel、数据认可印章(Data Seal of Approval,简称DSA)、DIN 31644《信息和文件——可靠数字档案的标准》等相关指南的荷兰语翻译、对DSA认证持有机构的调研分析等对多种认证方法的平衡使用来推进该项目,使得荷兰数字资源长期保存的工作更具专业性。

PID和数字资源长期保存社区合作的路线图试图厘清长期保存的数字对象生命周期对PID所标识的实体和描述元数据有何影响、PID如何帮助长期保存、长期保存如何帮助PID更好地处理科研数据等[37]。荷兰的一个研究团队尝试通过提高文化遗产机构对PID的重要性认识、提高内容管理系统中PID的使用,以便将PID作为访问数字文化遗产对象的途径,这样既解决了唯一标识符的问题,又可解决资源访问链接的长期有效性[38]。

法国国家图书馆的数字资源长期保存同样起步很早,2007年即开始建设遵循OAIS模型理论的用于法国文化遗产的长期保存的系统。起初,该系统准备以AIP的形式进行生命周期进行管理,然而在10年的项目实践中,真正遭遇了数据更新问题时,这一想法被证实是不切实际的[39]。通过实践和研究,他们提出一系列改进方式,比如在SIP阶段就尽可能详细描述清楚,以便进行数据跟踪管理的工作人员可以明确区分某一次的数据修正究竟仅仅是元数据调整还是需要重新打包整个信息包等。对信息包的后续版本的管理,类似于风险管理,对长期保存系统非常敏感。避免信息的流失、对数据内容丰富性的新需求、对存储的持续的资金投入等,都事关整个生命周期的管理。这些问题很难在项目建设伊始就得到答案,需要在实践中不断完善。

对于个人创作者而言,计算能力和数字工具的快速发展为他们提供了崭新的创新领域,但快速变化的环境也给这些创作者带来了新的威胁。如果完成项目的时间超过了操作系统或软件所能支持的时间该怎么办?个人创作者或者小型研究团队如何确保自己的研究成果在5年,或者25年后依然可用?在伊利诺伊大学厄巴纳-香槟分校从事信息技术和服务的Dena L. Strong通过对几位个人创作者长期跟踪访谈,对数字资源长期保存推荐建议与实际项目需求的差距进行比较评估[40]。软硬件供应商在升级过程中丢弃的一些向后兼容特性使得很多数字媒体创作者在迁移项目时会有信息遗失。基于云计算、虚拟化的模拟仿真环境或许能解决这一版本兼容性问题。

3 结 语

日本曾经申请了2011年iPRES大会的主办,但由于当年3月发生的东日本大地震无法如期举行,于是就由新加坡接手举办了当年的会议,所以也是一番周折之后,iPRES会议首次在日本举办,会议组织者借此机会向全世界长期保存领域的研究者展现了日本在长期保存方面的实践,尤其是游戏产业方面的独到经验。会议主办方的安排充分展现了日本细致的文化,年会像是数字资源长期保存领域从业者的一个大聚会,处处可感受到温馨、热络。

从会议报告交流中看到,一方面是富有实践经验的团队对于数字资源长期保存的反思和理论反哺,另一方面,从个人数据、科研数据,到社交媒体、游戏等流行文化,新兴的应用领域不断丰富长期保存的覆盖范围。作为一项复杂且艰巨的活动,长期保存在面对新的问题、挑战时仍在不断发展。iPRES大会作为长期保存领域学术水平最高的盛会,提供给研究人员一个交流、分享的平台。

猜你喜欢

数字资源研究
FMS与YBT相关性的实证研究
基础教育资源展示
辽代千人邑研究述论
一样的资源,不一样的收获
视错觉在平面设计中的应用与研究
EMA伺服控制系统研究
资源回收
答数字
资源再生 欢迎订阅
数字看G20